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Prioritatsbescheinigung iiber die Einreichung 
einer Patentanmeldung 




Aktenzeichen: 

Anmeldetag: 

Anmelder/lnhaber: 



PCT/DE 03/00942 



21. Marz 2003 



PACT XPP Technologies AG, Munchen/DE; 
Martin Vorbach, MQnchen/DE. 




Bezeichnung: Verfahren und Vorrichtung zur Datenverarbeitung 

Prioritat: 21.03.2002 DE 102 12 622.4; 21.03.2002 DE 102 12 621.6; 

02.05.2002 DE 102 19 681.8; 02.05.2002 EP 02 009 868.7; 
12.06.2002 DE 102 26 186.5; 20.06.2002 DE 102 27 650.1; 
20.06.2002 EP PCT/EP 02/06865; 07.08.2002 DE 102 36 271.8; 
07.08.2002 DE 102 36 272.6; 07.08.2002 DE 102 36 269.6; 
16.08.2002 EP PCT/EP 02/10065; 21.08.2002 DE 102 38 174.7; 
21.08.2002 DE 102 38 173.9; 21.08.2002 DE 102 38 172.0; 
27.08.2002 DE 102 40 022.9; 27.08.2002 DE 102 40 000.8; 
03.09.2002 DE PCT/DE 02/03278; 06.09.2002 DE 102 41 812.8; 
18.09.2002 EP PCT/EP 02/10479; 18.09.2002 EP PCT/EP 02/10464; 
19.09.2002 EP PCT/EP 02/10572; 10.10.2002 EP 02 022 692.4; 

06.12.2002 EP 02 027 277.9; 07.01.2003 DE 103 00 380.0; 

20.01.2003 EP PCT/EP 03/00624; 20.01.2003 DE PCT/DE 03/00152; 
1 8.02.2003 DE PCT/DE 03/00489 

noch nicht festgelegt 



Die angehefteten Stucke sind eine richtige und genaue Wiedergabe der ur- 
sprunglichen Unterlagen dieser Patentanmeldung. 



Munchen, den 19. November 2003 
Deutsches Patent- und Markenamt 
Der President 

Im Aufjrag 
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ANTRAG 



Der Unterzeichnete beantragt, daB die vorliegende 
Internationale Anmeldung nach dem Vertrag Uber die 
internationale Zusammenarbeit auf dem Gebiet des 
Patentwesens behandeit wird. 



■ Vnm An 



P&T/BE 0- 3 / 0 .0 9' 4-2- 

Internationales Aktenzeichen 

21 MarzZ003 / 2 1. 03. 03) 

f^O/OE Deutsches Patent- 



und Markenarfrt 
(German Patent apd Trade Mark 

Ncirrf^dee Anrrieideamts 



Office) 



Aktenzeichen des Anmelders oder. Anv/altsffalls gewunscht) 



Feld Nr. I BEZEICHNUNG DER ERFINDUNG 

Verfahren und Vorrichtung zur Datenverarbeitunc 


3 


Fcld Nr. fl ANMELDER | J Diese Person ist gleichzeitig Erfinder 


Name und Anschnffc (Familienname, Vorname; bei juristischen Personen vollstandige amtlicht 
Bezeichnung. Bei der Anschrifi sind die Postleitzahl und der Name des Staats anzugeben. Der ii 
diesem Feld in der Anschrift angegebene Staat ist der Staat des Sitzes oder Wohnsitzes de 
Anmelders, sofern nachstehend kein Staat des Sitzes oder Wohnsitzes angegeben ist.) 

PACT XPP Technologies AG 
MuthmannstrafSe 1 
D-80939 Munchen DE 


» Telefonnr.: . 

* 


Telefaxnr.: 


Feraschreibnr.: 


Registrierungsnr. des Anmelders beim Amt: 


btaatsangehongkeit (Staat): 

DE 


Sitz oder Wohnsitz (Staat): 

DE 


Sl^i™HTQ i flf aimeIder I I alle ' Bestim - flTI alle Bestimmunesstaaten mit Ausnahme | 1 nur die Vereinigten I 1 die im Zusatzfeld 

fur folgende Staaten. I 1 mungsstaaten Lf*J der Vereinigten Staaten von Amerika 1 1 Staaten von Amerika 1 I Ang^^n Staaten 


Feld Nr. Ill WEITERE ANMELDER UND/ODER (WEITERE) ERFINDER 


Name und Anschnft (Familienname, Vorname; bei juristischen Personen vollstandige amtliche 
Bezeichnung. Bei der Anschrifi sind die Postleitzahl und der Name des Staats anzugeben. Der ir 
diesem Feld in der Anschrift angegebene Staat ist der Staat des Sitzes oder Wohnsitzes da 
Anmelders, sofern nachstehend kein Staat des Sitzes oder Wohnsitzes angegeben ist.) 

VORBACH Martin . 
GotthardstralSe 117 a 
D-80689 Munchen 


Diese Peraon ist: 
| I nur Anmelder 

|Xl Anmelder und Erfinder 

| j nur Erfinder (Wird dieses Kastchen 

I I angekreuzt, so sind die nachstehenden 

Angaben nicht riotig.) 


Registrierungsnr. des Anmelders beirn Amt: 


StaatsangehOrigkeit (Staat): 

DE 


Sitz oder Wohnsitz (Staat): j 

DE 


ml^o!nS n <i?n t n^ I ? ieIder I I ^ Bes } im ' I I -«?le Bestininuingsstaaten mit Ausnahme TZT\ nur die Vereinigten I 1 die im Zusatzteld 

tur folgende Staaten: I 1 mungsstaaten I 1 der Vereinigten Staaten von Amerika I2L Staaten von Amerika I | angegebenen Staaten 


| | Weitere Anmelder unci/oder (weitere) Erfinder sind auf einem Fortsetzungsblatt angegeben. 


Feld Nr. IV AN WALT ODER GEMEINSAMER VERTRETER; ODER ZUSTELLANSCHRIFT 


Die folgende Person wird hiermit bestellt/ist bestellt worden, urn for den (die) Anmelder Y%t \ Anw,u I — I eemeinsamer 
vor den zustandigen mternationalen Behorden in folgender Eigenschaft zu handeln als: l*J Anwa,t I I v e ™ e te^ 


Name und Anschrift: (Familienname, Vorname; bei juristischen Personen vollstandige amtliche 
. Bezeichnung. Bei der Anschrifi sind die Postleitzahl und der Name des 
Staats anzugeben.) 


Telefonnr.: , 

++49 721 462034 


PIETRUK Claus Peter 
Patentanwalt 
Heinrich-Lilienfein-Weg 5 
D-76229 Karlsruhe DE 




Teletaxnx;.: 

++49 721 469308 




Fernschreibnn: 




Registrierungsnr. des Anwalts beim Amt: 


n Zustellanschrift: Dieses Kitchen ist anzukreuzen, wenn kein Anwalt oder gemeinsamer Vertreter bestellt ist und statt dessen im 
LJ-J obigen Feld erne spezielle Zustellanschrift angegeben ist. ( , 



Formblatt PCT/RO/101 (Blatt 1) (Marz 2001; Nachdruck Juli 2002) 



Siehe Anmerkungen zu diesem Antragsformular 




BlattNr. ^Q... ■ 
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- / • - 



FeldNr.V BESTIMMUNG VON STAATEN Bilte (Be ertsprechenden Kastchen ankreuzen; y^^^K^r^ m ^ ymdau 



Die folgenden Bestimmungen nach Regel 4.9 Absate a werden hiermit vorgenommen:. ~ ~ 
Regionales Patent ' 

0 ** iSESiE^SS"-?^^? ° 3mbia ' ^ Kenia ' LS LeSOth °' MW Ma,awi ' MZ Mosambik, SD Sudan, 
^ft Tr v^' i!^ ^ ^^ R ^ ,&Tan ^ a ' UG U ^23W Sambia,ZW Simbabwe_dj„erwe„re 
Staat, der Veitragsstaat des Harare-Protokolls nnd desPCTist^^o^&Wecr^a^e^^i Verfahren 
geywvtchtyvirdibitteaufdergepunktetenLinieangeb^ 7 

EI EA Eurasisches , Patent: AM : Aimenien AZ Aserbaidschan, BY Belaid, KG ^gi'sistan/ ICT K_achstan, MD Republik 
Moldan, RU Russische Foderabon, TJ Tadjikistan, TM Turkmenistan und jeder weitere Staat, der VertragssSt des 
EurasischenPatentQbereinkonnnens und des PCT 1st • g 

M EP Juropalsches Patent: AT Osterreich, BE Belgien. BG Bulgarien, CH &LI Schweiz und Liechtenstein, CY Zypem, 
CZ Tschechische Repubhk, DE Deutschland, DK Danemark, EE Estland, ES Spanien, FI Finnland, FR Frankreich 
GBVe^gtesKonigreKh, GR Gn e chenl and, IE Irland, IT Italien, LU Luxemburg, MC Monaco, NL Niederlande 
^S^J^T^cSZ^ ™ ^ ™* ^ — S ^ - ^-P— oes Europaischen 

m ° A ^"c^^^ Buridn , a P 3 ? 0 ' Benin > CT Zentralafrikanische Republik, CG Kongo, ClCfited'Ivoire, CM Kamerun, 
S>-? Gu.nea, GQ Aquatorialguinea, GW Guinea-Bissau, ML Mali, MR Mauretanien, NE Niger, SN Senegal, 
TDTschad, TGTogound jedef weitere Staat, der Vertragsstaat der OAPI und des PCT ist (falbeineandereSchutzrechtsart 
oder em sonstiges Verfahren gewunscht wird, bitte aufder gepunkteten Lime angeben) 

Nationales Patent (falls eine aria&e Schuerechtsart oder ein sonstiges Verfahren gewunscht wird, bitte aufder gepunkteten Linie angeben)- • 

m AE Vereinigte Arabische Emirate El GM Gambia und ARIPO-Gbm ElNZ Neuseeiand 

g AG Antigua und Barbuda . @HR Kroatien . , S OMOman 

m IL f baniCn S Ungam " 0 PH Philippinen 4 

W AMArmenien E ID Indonesien E PL Polen 

gAT Osterreich.. MOd .Gbnj.V: . 0 n, Israel H pj Po 

BAU Ausnalfen ; .. Ein fodien.; B RO Rumanien 

| AZ Aserbaidschan.. . g K Island EI RU Russische Federation 

U« BA Bosmen-Herzegovma. . ., „. El JP Japan 

§ BB Barbados EKE Kenia . Wnd . ftRtPP/rGbin S SD Sudan " " ' ' 

i ™ ? lE f e " '•• 1 KG K^sistan , 0 SE Schwedcn 

£3 BR Brasilien S'KP Demokratische Volksrepublik M SG Singapur 

SSJ! e ? n " m Korea . . _T SI Slowenien f\. 

S?J ? Chz ! • g KR Republik Korea _f SK Slowakei . .UpdMRIPOjGba 

-CAKanada 0 KZ Kasachstan E3 SL Sierra Leone . . . .7. " . . • 




g CH & LI Schweiz und Liechtenstein 1 H LC Saint Lucia ' H TJ Tadschikistan 

^SI?^:: i LK SriLanka G9 TM Turkmenistan ...... 

^COKolumbien H LR Liberia H TN Tunesien 

M 01 c °sta Rica LS Lesotho MOd .ARIPOrGbin S TR Tflrkei . 

S^!*": : ;--v-- Ltoen . GO TT Trmidad und Tobago 

E CZ Tschechische Republik M.nd .Gbm L u Luxemburg 



1 deutschland . . urjj .Jbm 0 Lv Lettland Q ^ Vereini ^ RepubIikJ ^ a und 

SDKDanemark....und.Gbm... Q MAMarokko.. S UA Ukraine , . ... 

S D M Dominica 13 MD Republik Moldau B UG Uganda . JUOd. AB IROrfiboi. 

§ !S ^ ger ! en „ © us Vereinigte Staaten vonAmerika. . 

m EC Ecuador • : , ..; . . S MGMadagaskar 

B-EE Estland. .Hid. Gbm ... .... V... ^ MKDie ehemalige jugoslawische S UZ Usbekistan 

S ES S P anien Republik Mazedonien ^ VN Viemam 

U n Finnlan « • u, ? d . . G ^ m . S MNMongolei 0YU Jugoslawien 

^.GB VereinigtesKonigreich E MW Malawi .yad .flRXPOrJSbm. . . . 13 ZA Sadafhka 

^GD Grenada 13 MXMexiko EZMSambia und ARIPO-Gbm 

EJGE Georgien ••••••• •••••• • • ■ SMZ Mosambik. und. ARIPp-Gb.m.. tS ZWSimbabwe .ynd .ARIPO7Gb.n1 

E GH Ghana . . und. ARIPO-Gbm . . . NO Norwegen 

ISS!*S.to e 4 L !l- aUe andere " zusatzlichen moglichen Schutzrechte in diesen Landern 
ra VC St VM Sr S p^T U + g r?„n^ S^™,^ 03011 VeroffenUichung dieses Foijnblatts beigetreten smd. 
IS .MV. St, Vincent . + .Gr?P.ad.V?JfK SZ Swasiland u- ARIPO-GbiJ^M 
g.SC.Sg.ycJie.LU/1 NI Ni'c'a'r'agu'a"' " """ "' □ ' 



S/q aS ^"orgbf »er Bestimmungen: Zusatzlich zu den oben genannten Bcstimmungen nimmt .der Anmelder nach 
n«riLm.,„ » j- auch ,. aIle !", d f ren nacn dem p CT zulassigen Bestimmungen vor mit Ausnahme der im Zusatzfeld genannten 
Vn*^r ? ' o ™" T &klan,n S ausgenommen sind. Der Anmelder erklart, dafl diese zusatzlichen Bestimmungen unter dem 
besS wurde S ™> d zusatzliche Bestimmung, die vor Ablauf von 15 Monaten ab dem Prioritatsdatum nicht 
«SLTfSwf ^ I ^ F S St 3,3 VOm AnmeWer zurttckgenommen gilt (Die Best&tigung (einschliefilich der Cebuhren) 
mupbeimAnmeldeamt inne rhalb der Fri st v on 15 Monate n eingehen.) 



BlattNr. 



3. 



Feld Nr. VI PRIORTTATSANSPRUCH 



Die Prioritat der folgenden friiheren Anmeldung(en) wird hiermit in Anspruch genommen: 



. Anmeldedatum 
der firiiheren Anmeldung 
(Tag/Monat/Jahr) 


Aktenzeichen 
der friiheren AnmeldunE 


1st die frUhere Anmeldung eine: 


nationale Anmeldung: 
*\tn'At oder MitffHed der WTO 


regionale Anmeldung:* 
regionales Amt 


intemationale Anmeldung: 
Anmeideamt 


Zeile (I) 
21, Marz 2002 

(Z4x 03 . o£) 


102 12 622.4 


DE • 






Zeile (2) 
21 . Marz 2Q02 


102 12 621.6 


DE 






Zeile (3) 

02. Mai 2002 
foa.,06'1 OA) 


102 19 681.8 


DE 






Zeile (4) 

02. Mai 2002 


02 009 868.7 


EP 




* 


Zeile (5) 

12. Juni 2002 


102 26 186.5 


DE 







I Weitere Prioritatsanspruche sind im Zusatzfeld angegeben. 



Das Anmeideamt wird ersucht, eine beglaubigte Abschrift der oben bezeichneten friiheren Anmeldung(en) zu erstellen und den 
internationalen Biiro zu ubermittelnfrttr falls die frilhere Anmeldung(en) bei dem Amt eingereicht worden ist (sind). das fur die Zwecke 
dieser internationalen Anmeldung Anmeideamt ist) \ 

□ Zenen Che E Zeile < l > K Ze^C 2 ). 59 - Zeile <3) □ Zeile (4) 00 ^ <5) H ZuSfd^ 

* Falls es sich bei der fruheren Anmeldung urn eine ARIPO-Anmeldung handelt, gebeh Sie mindestens einen Staat an,.der Mitgliedstader 
Pariser Verbandsubereinkunft zum Schutz des gewerblichen Eigentums oder Mitglied der Welthandelsorgamsation ist und fur den oder da ; 
die frilhere Anmeldung eingereicht wurde:. - • 



Feld Nr. VII INTERNATIONALE RECHERCHENBEHORDE 



Wahl der internationalen Rechcrchcnbchorde (ISA) (falls zwei oder mehr ab zwei Internationale Recherchenbehordenjwr die Ausfiihrung 
der internationalen Recherche zustdndigsind, geben Sie die von Jhnen gpwahlte Behorde an; der Zweibuchstahen-Code kann benutzt werden): 

ISA/ ' ' - ; ''v- 

Antrag auf Nutzung den Ergebnisse einer friiheren Recherche; Bezugnahme auf diese fruhere Recherch«jfo/Zs einefiriXhere 
Recherche bei der internationalen Recherchenbehdrde beantragt oder yon ihr durchgefuhrt -warden ist): 
Datum (Tag/Monat/Jahr) Aktenzeichen Staat (oder regionales Amt) 



Feld Nr. VIII ERKLARUNGEN 



Die Felder Nr. VIII (i) bis (v) enthalten die folgenden ErkIarungenfA>euze« Sie unten die entsprechenden 
Kastchen an und geben Sie in der rechten Spaltefiir fede Erklarung deren Ahzahl an) 



Anzahl der 
Erklarungen 



□ 
□ 

gj Feld Nr. vni(iii) 



□ 
□ 



Feld Nr. VIII (i) Erklarung hinsichtlich der Identitat des Erfinders 

Feld Nr. VIII (ii) Erklarung hinsichtlich der Berechtigung des Anmelders, zum Zeitpunkt des 
internationalen Anmeldedatums, ein Patent zu beantragen und zu erhalten 

Erklarung hinsichtlich der Berechtigung des Anmelders, zum Zeitpunkt des 
internationalen Anmeldedatums, die Prioritat einer friiheren Anmeldung 
zu beanspruchen : 

Feld Nr. VIII (iv) Erfindererklarung (nur im Hinblick auf die Bestimmung der Vereinigten 

Staaten von Amerika) : 

Feld Nr. VIII (v) Erklarung hinsichtlich unschadlicher Offenbarungen oder Ausnahmen 
von der Neuheitsschadlichkeit 



A 



Formblatt PCT/RO/101 (Blatt 3) (Juli 2002) 



Sieh.e Anmerkungen zu diesem Antragsformular 



Blatt Nr. 



,4.. 



Zusatzfcld 



Wird dieses Zusatzfeld nicht benutzt, so sollte dieses Blatt dem Antrag nicht beigefiigt werden. 



1. Wenh der Platz in einem Feld nicht fur aile Angaben 
ausreicht:. In diesem Fall schreiben Sie "Fortsetzung von 
Feld Nr. " [Nummer des Feldes angeben] und machen die 

' Angaben enteprechend der in dem Feld, in dem der Platz nicht 
' ausreicht, vorgeschriebenen Art und Weise. insbesondere: 

(i) . Wenn mehralszwei Anmelder und/oder Erfinder vorhanden 

sind und keiri "Fortsetzungsblatt" zur Verftigung stent: In 
diesem Fall schreiben Sie "Fortsetzungyon Feld Nr. HI" und 
' machen far jede weitere Person die in Feld Nr. Ill 
vorgeschriebenen Angaben. Der in diesem i Feld in derAnschrift 
angegebene Staat ist der Staat des Sitzes oder Wohnsitzes des 
Anmelde'rs, sofern nachsteherid kein Staat des Sitzes oder 
Wohnsitzes angegeben ist. . , . 

(ii) Wenn in Feld Nr. II Oder III die Angabe "die im Zusatzfeld 
angegebenenStaaten n angekreitztist: In diesem Fall schreiben 

' Sie "Fortsetzung von Feld Nr. //", "Fortsetzung von 
Feld Nr. HI" bzw. "Fortsetzung von Feld Nr. II und Nr. Ill" 
und geben den Namen des Anmelders oder die Namen der 
Anmelder an und neben jedem Namen den Staat, oder die 
Staaten (und/oder ggf. ARIPO-, eurasisches, europdisches 
oder OAPI-Patent), .fur die die, bezeichnete Person Anmelder 

(Hi) Wenn der in Feld Nr. II oder III genannte Erfinder oder 
Erfutder/Anmelder nicltt fUr alle Bestimmungsstqaten oder 
fur die Vereinigten Staaten von Amerikaals Erfinder benannt 
ist: In diesem Fall schreibenSie "Fortsetzung von Feld Nr. II", 
"Fortsetzung von' Feld Nr. Ill" bzw. "Fortsetzung von 
Feld Nr. II und Nr. Ill*' und geben den Namen des Erfinders 
oder die Namen der Erfinder an und neben jedem Namen den 
Staat oder die Staaten (und/oder ggf./ARIPO-, eurasisches, 
europdisches. oder OAPI-Patent),furdie die bezeichnete Person 
Erfinder ist. , * ' 

(iv) Wenn zusdtzlich zu dem Anwalt oder den Anwdlten, die in 
Feld Nr. IV angegeben sind, weitere Anwdlte bestellt sind: In 
diesem Fall schreiben Sie "Fortsetzungyon Feld Nr. IV" und 
machen fur jeden yveiteren Anwalt die entsprechenden, in 
Feld Nr. IV vorgeschriebenen Angaben. 

(v) Wenn in Feld Nr. V bei einem Slaat (oder bei OAPl) die 
Angdbe "Zusatzpatent" oder "ZusatzzertifUcat," oder wenn 
in Feld Nr. V bei den Vereinigten Staaten von Amerika die 
Angabe "Fortsetzung" oder "Teilfortsetzung' 9 hinzugefilgt 
wird: In diesem Fall schreiben Sie "Fortsetzung yon 
Feld Nr. V" und geben den Namen des betreffenden Staats 
(oder OAPI) an und nach dem. Namen jedes solchen Staats 
(oder OAPI) das Aktenzeichen des Hauptschutzrechts oder 
der Hauptschutzrechtsanmeldung und das Datum der Erfei/ung 
des Hauptschutzrechts oder der Einreichung der 
Hauptschutzrechtsanmeldung. 

(vi) Wenn in Feld Nr. VI die Prioritdt von mehr alsfftnffruheren 
Anmeldungen beanspruclit wird In diesem Fall schreiben 
Sie "Fortsetzung von Feld Nr. VI" und -machen fur jede 
weitere fruhereAnmeldungdie entsprechenden, in Feld Nr. VI 
vorgeschriebenen Angaben. s 

2. Wenn, im Hinblick auf die Erklurung bzgi vorsorglicher 
Bestinutmngen' in Feld Nr. V der Anmelder Staaten von 
dieser Erkldrung ausnehmen mdchte: In diesem Fall schreiben 
Sie "Bestimmung(en), die von der Erkldrung bzgl. vorsorglicher 
Bestimmungen ausgenommen istfsind) "und geben den Namen 
oder den Zweibuchstaben-Code jedes so ausgeschlossenen 
Staates an. 



Fortsetzung von Feld VI: 



6) 20. 

7) 20. 

8) 07. 

9) 07. 

10) 07. 

11) 16. 

12) 21. 

13) 21, 

14) 21. 

15) 27. 

16) 27. 

17) 03. 

18) 06. 

19) 18. 

20) 18. 

21) 19. 

22) 10. 

23) 06. 

24) 07. 

25) 20. 



Juni 2002 
Juni 2002 

Aug. 2002 
Aug. 2002 
Aug. 2002 
Aug. 2002 

Aug. 2002 
Aug. 2002 
Aug. 2002 
Aug. 2002 
Aug. 2002 
Sept. 2002 

Sept. 2002 
Sept. 2002 

Sept. 2002 

Sept. 2002 

Okt. 2002 
Dez. 2002 
Jan. 2003 
Jan. 2003 



102 27 650.1 • DE 
PCT/EP 02/06865 EP hinter- 

legt mit Wirkung fQr TT 
102 36 271.8 DE 
102 36 272.6 DE 
102 36 269.6 DE 
PCT/EP 02/10065 EP hinter- 

legt mit Wirkung fur TT 
102 38,174.7 DE 
102 38 173.9 DE 
102 38 172.0 DE 
102 40 022.9 DE 
.102 40 000.8 , DE 
PCT/DE 02/03278 DEJiinter- 

legt mit Wirkung far TT 
102 41 812.8 DE — — 



26) 20. Jan. 2003 

27) 18. Feb; 2003 



PCT/EP 02/10479 EP hinter- 

' legt mit Wirkung fQr TT 
PCT/EP 02/10464 EP hinter- 

legt rait Wirkung fQr TT 
PCT/EP 02/10572 EP hinter- 

legt mit Wirkung fQr TJ> 
02 022 692.4 EP x/ 
02 027 277.9 EP */ 
103 00 380.0 DE 
PCT/EP 03/00624 EP hinter- 

legt mit Wirkung fur TT ■ 
PCT/DE 03/00152 DE hinter- 

legt mit Wirkung fur TT 
PCT/DE 03/00489 DE hinter- 
legt'mit Wirkung fQr TT 



4 



Formblatt PCT/RO/iOl (Zusatzblatt) (Marz 2001; Nachdrucfc Juli 2002) I Siehe Anmerkungen zu diesem Antragsformular 



Blatt Nr. 



PCT/D^p 3 / 00 942 



Feld Nr. VUl (iii) ERKLARUNG: BERECHTIGUNG, DIE PRIORITAT EINER FRUHEREN ANMELDUNG ZU 

BEANSPRUCHEN 

Die Erklarung mufi dem in Abschnitt 213 vorgeschriebenen Wortlant entsprechen; siehe Anmerkungen =u den Feldern VIII VIII ($s (v) 
(allgemein) und insbesondere die Anmerkungen zum Feld Nr. VIII (Hi). Wird dieses Feld nicht benuizt, so sollte dieses Blattain Antrag nicht 
beigefllgt. werden. ' ' : 



Erklarung hinsichtlich der Berechtigung des Anmelders, zum Zeitpuhkt des intemationalen Anmeldedatums, die Prioritat der untei i 
aufgeifthrten fruheren Anmeldung zu beanspruchen, in Fallen, in denen der Aitmelder nicht auch der Anmelder der fruheren Anmeldun 
tst oder in Fallen, in denen sich der Name des Anmelders seit der Einreichung der Mheren Anmeldung geandert hat (Regeln 4. ETifTer iii 
und 5 1 bis. 1 Absatz a Ziffer iii): 

Die PACT XPP Technologies AG ist kraft des nachfoigend Aufgefuhrten berechtigt, die 
Prioritaten der fruheren aufgefuhrten Anmeldungen zu beanspruchen: 

Der Name des Anmelders hat sich gemaft Anderung des Gesellschaftsvertrages vom 
08. Juli 2002 von PACT Informationstechnologie GmbH gemaR formwechselnder 
Umwandiung in PACT, XPP Technologies AG geandert; Datum der letztep Eintragung im 
Handelsregister 27. August 2002 - gemaft beiliegendem Handeisregisterauszug. vom 
12. September 2002. 



□ Diese Erklarung wird auf dem folgenden Blatt fortgeffflirt, fc Tortsetzungsblatt fur Feld Nr. VIII (iii)" 



Formblatt PCT/RO/I01 (Erklarungsblatt (iii)) (Marz 2001; Nachdruck Juli 2002) . Siehe Anmerkungen zu diesem Antragsformidar 



.BlattNr. 



E 



Feld Nr. DC KONTROLLISTE; EINREICHUNGSSBRACHE 



Diese Internationale* Anmeldung enthalt: 

(a) die Folgende Anzahlan 
B latter n Papier 

Antrag (inklusive 
\ Erklarungsbiatter) 

Beschreibung (ohne 
Sequehzprotoko llteil) 

Ansp niche 

Zusammenfassung . 

. Zeichnungen 

Teilanzahl 



: 6 • 



Sequenzprotokollteil der 
Beschreibung (Anzahl der 
Blatter, soweit auf Papier - 
eingereicht wird, unabhdngig 
davon, ob zusatzlich 
auch in computerlesbarer 
Form eingereicht wird) 

Gesamtanzahl 



(b) Sequenzprotokollteil der Beschreibung in 
computerlesbarer Form eingereicht 

(i) pr ausschlieBlich in dieser <Form (nach 
• Abschnitt801(a)(i)) 

(ii) n zusatzlich zur Einreichung auf Papier 

(nach Abschnitt 80 l(a)(ii)) 

Art und Anzahl der Datcntrager (Diskette, 
CD-ROM, CD-R oder sonstige), auf denen 
der Sequenzprotokollteil enthalten ist 
(zusatzlich eingereichte Kbpien tatter Punkt 9(H) 
in der, rechten Spalte qngeben) 



Dieser internationalen Anmeldung tiegen die folgenden 
Unterlagen bei (kreuzen Sie die entsprechenden Kastchen 
an undgeben Sie in der rechten Spalte Jewells die Anzahl 
der beiliegenden Exemplare an) 
1 . □ Blatt fur die Gebuhrenberechnung 

Original einer gesonderten Vollmacht 

Original einer allgemeinen Vollmacht 



Anzahl 



2. □ 
3-D 
4. □ 



5. □ 

6. □ 



Kopie der allgemeinen Vollmacht; Aktenzeichen (falls 
vorhanden): 

Begriindung fur das Fehlen einer Unterschrift 

PrioritStsbeleg(e), in Feld Nr. VI durch folgende 
Zeilennummer(n) gekennzeichnet: 



Obersetzung der internationalen Anmeldung in die 
folgende Sprache: 



Gesonderte Angaben zu hinterlegten Mikroorganismen 
oder anderem biologi'schen Material : 

Sequenzproto koll in computerlesbarer Form (geben S ie 
zusatzlich die Art und Anzahl der beiliegenden Datentrager 
an (Diskette, CD-ROM, CD-R oder sonstige)) 

(i) □ Kopie ausschlieBlich fur die Zwecke der : 
internationalen: Recherche nach Regel 1 3er (und 
nichtalsTeil der internationalen Anmeldung) : 

(ii) n (nur falls Feld (b)(i) oder(b)(ii) in der linken Spalte 
angekrevzt wurde) zusatzliche Kopien einschlieBlich, 
soweit zutrefTend, einer Kopie fur die Zwecke der 
internationalen Recherche nach Regel 1 3ter : 

(iii) □ zusammen mil entsprechender Erklarung, dafi die 
Kopie(n) mit dem in der linkeriSpalte aufgeftlhrten 
Sequenzprotokollteil identisch ist (sind) : 

10. g3 Sonstige (einzeln auffiihren}. 



Abbildung der Zeichnungen* die 
mit der Zusammenfassung 
veroffentlicht werden soil (Nr.): 



Sprache, in der die 
Internationale Anmeldung DE 
eingereicht wird 



Feld Nr. X UNTERSCHRIFT DES ANMELDERS, DES ANWAJLTS ODER DES GEMEINSAMEN VERTRETERS 

Der Name jeder unterzeichnenden Person ist neben der Unterschrift ru wiederholen, und es ist anzugeben, sofern sich dies niaHtodeutig aus dem Antrag 
ergibt, in wetcher Eigenschaft die Person unterzeichnet. . . 



D-76229 Karlsruhe, den 



1, Marz .2903 




h Rietruk 

jlienfein-Weg 5 



I. Datum des tatsachlichen Eingangs dieser / • n \ 
internationalen Anmeldung: q j |yj£p2 2003 (2 1. 03. 03 J 


2. Zeichnungen: 
["XI eingegangen: 


3. Geandertes Eingangsdatum aufgrund nachtraglich, jedoch 
fristgerecht eingegangener Unterlagen oder Zeichnungen zur 
Vervollstandigung dieser internationalen Anmeldung: 


4. Datum des fristgerechten Eingangs der angeforderten 
Richtigstellungen nach Artikel 1 1(2) PCT: 


1 | nicht ein- 
L 1 gegangen: 


5. Internationale Recherchenbehorde ^ 
(falls z\vei oder mehr zustandig sind) ISA 1 K^X 


6. 1 — 1 tibermittlung des Recherchenexemplars 

1 I bis zur Zahlung der Recherchengebuhr 

aufgeschoben 





Vom Internationalen Buro auszufullen 



Formblatt PCT/RO/101 (letztes Blatt) (Juli 2001 ; Nachdruck Juli 2002) 



Siehe Anmerkungen zu diesem Antragsformular 
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Bes chr eibung 1 



Die vorliegende Erfiridung befafit sich mit der ' Integration urid/oder 
engen Kopplung von rekonf igurierbaren Prozessoren mit Standardpro- 
zessoren, dem Datenaustausch und der Synchronisation der Datenver- 
arbeitung sowie Compilern hierfiir. - • , 

• Unter einer rekonf igurierbaren Architektur werden voirliegend Bau- 
steine (VPU) mit konf igurierbarer Funktion und/oder Vernetzung 
25 verstanden, insbesondere integrierte Bausteine mit einer Mehrzahl 
von ein- ode'r m^hr dimensional angeordneten arithme.tischen und/oder 
logischen und/oder analogen und/oder speichernden und/oder in- 
tern/extern vernetzendeh Baugruppen, die direkt oder durch ein 
Bussystem miteinander verbunden sind. , . 

30 . ' * , 

Zur Gattung dieser Bausteine zahlen insbesondere systolzsche 
Arrays, neuronale Netze, Mehrprozessor , Systeme, Prozessoren mit ^ 
mehreren Rechenwerken und/oder logischen Zellen und/oder kommuni- 
kativen/peripheren Zellen ■ (10)., Vernetzungs- und Netzwerkbausteine 
wie z.B. Crossbar-Schalter, ebenso wie bekannte Bausteine der Gat- 
tung* FPGA, DPGA, Chameleon, XPUTER, etc.. Hingewresen wird insbe- 
sondere in diesem Zusammenhang auf die folgenden Schutzrechte und 
2\nmeldungen desselben Anmelders : 
P 44 16 881 Al, DE 197*81 4i2 Al, DE 197. 81 483 Al, DE 196 54 846 
40 Al, DE 196 54 593 Al, DE 197 04 044.6 Al, DE 198 .80 129 Al, 

DE 198 61 088 Al, DE 199 80 312 Al, PCT/DE 00/01869, DE 100 36 627 
Al, DE 100 28 397 Al, DE 101 10 530 Al, DE 101 11 014 Al, 
PCT/EP 00/10516, EP 01 102 674 Al, DE 198 80 128 Al, DE 101 39 170 
Al, DE 198 09 640 Al, DE 199 26 538.0 Al,. DE 100 50 442 Al, PCT/EP 
45 02/02398, DE 102 40 000, DE 102 02 044, DE 102 02 175, DE 101 29 
237, DE 101 42 904, DE 101 35 210, EP 01 129 923, PCT/EP 02/10084, 
DE 102 12 622, DE 102 36 271, DE 102 12 621, EP 02 009 868, DE 102 
36 272, DE 102 41 812, DE 102 36 269, 

DE 102 43 322, EP 02 022' 692, DE 103 00 380, DE 103 10 195, sowie 
die EP 02 001 331 und .EP 02 027 277. Diese sind hiermit zu Off en- 
barungszwecken vollumf anglich eingegliedert 
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Die o.g. Architektur wird beispielhaft zur Verdeutlichung herange- 
zogen und im folgenden VPU genannt . Die Architektur besteht aus 
beliebigen, typisch grobgranularen arithruetischen, logischen . (auch 
. Speicher) und/oder Speicherzellen und/oder Vernetzungs zellen 
5 und/oder kommunikativen/peripheren (10) Zellen (PAEs), die zu "ei- 
ner ein- oder mehrdimensionalen Matrix (PA) angeordnet sein kon- 
nen, wobei die Matrix unterschiedliche beliebig ausgestaltete Zel- 
len aufweisen kann, und auch die Bussysteme dabei als Zellen ver- 
standen werden konnen. Der Matrix als ganzes oder Teilen davon zu- 
10 geordnet ist eine Konf igurationseinheit (CT) ,. die die Vernetzung 
' und Funktion des PA durch Konf iguration bestimmt. Es kann eine. 
f eingranulare Steuerlogik vorgesehen- sein. 

Verschi'edene Methoden zum Ankoppeln von rekonf igurierbaren Prozes- 
15 soren an Standardprozessoren sind bekannt. Diese sehen fur gew6hn- 
liclr eine lose Kopplung vor." Die Art und Weise der Kopplung bedarf 
in'vielen Aspekten noch einer Weiterentwicklung, genauso wie die 
fur die gemeinsame Abarbeitung von Programmen auf Kombinationen 
aus rekonfigurierbaren Prozessoren und Standardprozessoren vorge- 
20 sehenen Kompi'lier- bzw. Betriebsverf ahren. 

Die Aufgabe der Erfindung ist es, Neues fur die gewerbliche Nut-, 
zung bereitzus teilen. 

25 Die Losung der Aufgabe wird uriabhangig beansprucht . Bevorzugte 
Ausfuhrungsf ormen befinden sich in. den Unteranspriichen. 



Bes chr eibung der Erfindung 

30 

Ein Standardprozessor, z.B. ein RISC> CISC, DSP (CPU), werde mit 
einem. rekonf igurierbaren Prbzessor (VPU) gekoppelt . Zwei unter- 
schiedliche, bevorzugt jedoch zugleich implementierte und/oder im- 
plementierbare Kopplungsvarianten werden beschrieben. 

15 , 
I Eine erste Variante sieht eine direkte Ankoppelung an den Befehls- 
* satz einer CPU vor (Bef ehlssatzkopplung) . 

Eine zweite Variante sieht eine Ankoppelung uber Tabellen im - 
Hauptspeicher vor. 
40 Beide sind • simul tan und/oder alternativ implement ierbar . 

Befehl s s a t zkoppelung 

Innerhalb eines Instructions sets (ISA) einer CPU sind fiir gewohn- 
45 • lich freie unbenutzte Befehle vorhanden. Einer oder eine Mehrzahl 
dieser freien unbenutzten Befehle wird nunmehr fiir die. Steuerung 
von VPUs verwendet . (VPUCODE) . 

Durch die Dekodierung eines VPUCODEs wird eine Konfigura- 
50 tionseinheit (CT) einer VPU angesteuert die in Abh&ngigkeit des 
VPUCODEs bestimmte AblSufe ausfiihrt.. 
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Beispielsweise kann ein VPUCODE das Laden und/oder Ausfiihren von 
Konfigurationen durch die Konf igurationseinheit (CT) fur eine VPU 



auslosen. 
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Kommandoubexgabe an VPU 



In einer erweiterten Ausfiihrung kann ein VPUCODE xiber eine ttber- 
setzungstabelle, die bevorzugt von ' der CPU aus aufgebaut wird, auf » 
uriterschiedliche VPU-Koitimandos tibersetzt werden. Die Konfigurati- 
10 onstabelle kann in Abhangigkeit von dem ausgefuhrten CPU Programm 
o'der Codeabschnitt gesetzt werden. 

Die VPU lcldt nach Eintreffen eines Ladekommandos Konfigurationen 
aus einem eigenen oder einem z. B. mit der CPU geteilten Speicher. 
,15 ' Insbesondere kann eine Konf iguration im Code des aktuell ausge- 
fuhrten Programmes .beinhaltet sein. 

W Nach Erhalt eines ■ Aus fuhrungskommandos ftihrt eine VPU die auszu- 
^ f uhrende Konf iguration 'aus und die . entsprechende Datenverarbeitung 
20 durch. Das Beenden der Datenverarbeitung kann durch ein Te.rminie- 
rungssignal (TERM) an die CPU angezeigt werden. 

VPUCODE -Verarbei tung axx£ CPU 

25 Bei. Auftreteh .eines VPUCODEs konnen solange WarteZyklusn auf der 
CPU ausgefuhrt werden, bis das Termini e rungs signal (TERM) der' Be- 
endingung der Datenverarbeitung von der VPU eintrifft. 

In. einer bevorzugten Ausgestaltung wird mit der Verarbeitung der 
30 nachsten Codes f ortgef ahren. Tritt ein weiterer VPUCODE auf , kann 
sodann auf die Beendigung des vorhergehenden gewartet werden, oder 
samtliche' gestartete VPUCODEs werden in einer Verarbeitungspipeli- 
ne eingereiht, oder ein Taskwechsel wird wie nachfolgend beschrie- 
ben ausgefuhrt. " 

A Die Beendigung einer Datenverarbeitung wird durch cias Eintreffen 
W ■ des Terniinierungssignal (TERM) in ein'em Statusregister signali- 
siert. Die Terminierungssignale treffen in der Reihenfolge einer 
moglichen Verarbeitungspipeline ein. Die Datenverarbeitung auf der 
40 CPU kann durch das Testen des Statusregisters auf das Eintreffen . 
eines Terminierungssignales synchronisiert werden. 

In einer moglichen Ausgestaltung kann, sofern eine Applikation vor 
dem Eintreffen von TERM z . B . durch D'atenabhangigkeiten nicht fort- 
45 gesetzt werden kann, ein Taskwechsel ausgelost werden. 

Coprozessor- Kopplung (lose gekoppelt) 

' 50 Nach der DE 101 10 530 werden bevorzugt lose Kopplungen zwischen 

Prozessoren und VPUs aufgebaut, bei welchen VPUs weitestgehend als 
unabhangige Coprozessoren arbeiten. 
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Eine derartige Kopplung sieht typisch eine oder mehrere gemeinsame 
Datenquellen und -senken, zumeist iiber gemeinsame Bus systems . 
und/oder gemeinsame Speicher vor. Uber' DMAs und /° de * f" de * e 
cherzugriffskontroller werden Daten zwischen emer-CPU und einer 
.VPU ausgetauscht. Die Synchronisation der Datenverarbeitung er- 
folgt bevorzugt tiber eine Interruptsteuerung oder einen Statusab- 

fragemechanismus (z.B. 'Polling). • 

.H ■ • . 

Rechenwerk-Kopplung (eng gekoppelt) 

Eine enge . Ankopplung entspricht der vorab beschriebenen direkten 
Ankopplung einer VPU in den. Befehlssatz einer CPU. 

. B ei einer direkten Rechenwerk-Ankopplung . ist besonders auf eine 
hone Rekonfigurationsperformance zuachten: Bevorzugt kann daher 
die Wave-Rekonf iguration nach DE 198 07 872, DE 199 26^538, DE 100 
2-8 397 zum'Einsatz kommen. Des weiteren werden die K °£ f ^.at^ons 
worte bevorzugt. nach DE 196 54 846., DE 199 26 538, DE 100 28 397, 
DE 102 12 621 vorab derart vo.rgeiaden, dass bei Ausfuhrung de.s Be- . 
fehls die Konfiguration besonders- schnell, (beispo.elswe3.se mittels 
Wave-Rekonfigu-ration im Optimalfall innerhalb ernes Taktes) kon- . 
figuriert ^erden kann. , 

Fur die Wave-Reconfiguration werden. bevorzugt die voraussichtlich 
auszufuhrenden Konf igurationen vorab durch denXompHer zur Compi- 
lezeit erkannt, d. h. abgeschatzt und/oder vorhergesagt, und zur 
Laufzeit entsprechend vorgeladen sowe tmog Uch Moglich e V erf ah . 
' ren'sind beispielsweise aus DE 196 54 846, DE 197 04 728, DE 198 
u7 872, DE 199 26 538, DE 100 28 397, DE. 102 12 621 bekannt. 

Zum Zeitpunkt der' Be fehls ausfuhrung wird die oder eine e n tspre- ./ 
chende Konf iguration ■ selektiert und ausgefuhrt. Auch derartige . 
Verfahren sind nach den o.g. Schriften bekannt. Besonders bevor- 
zugt 'werden Konf igurationen in Sdhattenkonf iguratxonsregxster vor- 
aeladen, wie beispielsweise aus DE 1.97 04 728 (Fig. 6) und DE 1.02 
?2 62i (Fig! 14); bekannt, um dann bei Abruf besonders schnell zur. 
Verfligung zu stehen. 

Datentransfers. _ . - ' 

Eine mogliche Implementierung wie beispielsweise in Figur 1 darge 
stellt kann unterschiedliche Datentransfers zwischen einer CPU 
(0101) und VPU (0102) vorsehen. Die auf der ^V^^nl? der 
45 Konf igurationen werden durch den Instruktionsdekoder (0105) der 

CPU selektiert, der bestimmte, fur die VPU • bestimmte Instruktionen 
erkennt und die CT (0106) derart ansteuert, dass ^J?" 
sprechenden Konf igurationen aus einem der c V Ug6 ^n iSlr ^SrsSbe 
(0107), der insbesondere mit der CPU geshared werden oder <*erselbe 
wie der Arbeitsspeicher der CPU sein kann, in das Array aus PAEs 
(PA, 0108) ladt. 
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Es soil ausdruckllch angeitierkt werden, dass in Figur 1 aus Grunden 
, der Obersichtlichkeit nur die reievanten Komponenten (i.b. der 
CPU.) aufgezeigt sind und eine wesentliche- Zahl weiterer Komponen- 
ten' und Netzwerke vorhanden sind. ' 

Drei besonders beyorzugte einzeln oder kombiniert einsetzbare Me- 
thoden werden nachf olgendi beschrieben. • 

Register . ' 

Bei einer Registerkopplung kann die VPU Daten aus einem CPU- 
Register (0103) entnehmen, verarbeiten und in ein oder das CPU- - 
Register zuriickschreiben. 

Bevorzugt werden Synchronisationsmechanismen zwischen der CPU und 
der VPU eingesetzt. 

Beispielsweise kann cLLe VPU durch das Einschreiben der Daten in 
ein CPU-Register durch die CPU ein, RDY-Signal (DE 196 51 075, DE 
110 10 530) erhalt^n und daraufhin die eingeschriebenen Daten ver- 
arbeiten. Das Auslesen yon Daten aus einem CPU-Register .durch .' die 
GPU kann ein ACK-Signal' (DE 196 51 075, DE 110 10' 530) generieren, ' 
wodurch die Datenabnahme durch. die CPU der VPU signalisiert wird-. 
CPUs stellen typischerweise keine entsprechenden Mechanismen zur 
Verftigung. - . 

j • . * * ■ 

Zwei mogliche Losungen werden n^her beschrieb^n: 

Ein einfach zu realsierenden Ansatz ist, die Datensynchronisation 
Ober ein Statusf egister (0104) durchzufuhren. Beispielsweise kann 
die VPU das erf olgte. Auslesen von Daten aus einem Register und das 
damit verbunderie ACK-Signal (DE 196 51 075, DE 110 10 530) : 
und/oder das Einschreiben von Daten in ein Register und das damit 
verbundene RDY-Signal- (DE -196 51 075, DE .110 10 530.) in dem Sta' 5 - 
tus v register .anzeigenJ Die • CPU testet zunachst das Statusregister • 
und fiihrt beispielsweise so lange Warteschleif en oder Taskwe'chsel ' 
aus, bis - je nach . Operation - das RDY oder ACK eintraf. Danach 
fuhrt die CPU den jeWeiligen Registerdatentransf er aus. ■ 

i 1 
In- einer erweiterten Ausgestaltung wird der Befehlssatz der CPU urn 
load/s tore-Ins tr,ukt:ionen mit integrierter Statusabf rage (load_rdy, 
store_ack) erweitert. Beispielsweise wird bei einem sto're_ack riur 
dann ein neues Datenwort in ein 'CPU-Register geschrieben, wenn das 
Register vorher von der VPU ausgelesen wurde und ein ACK eintraf. 
Entsprechend. liest load_rdy nur Daten aus einem CPU-Register, wenn 
die VPU vorher neue Daten eingeschrieben und ein RDY generiert 
'hat. • - 

Daten, die zu einer auszufuhrenden Konf iguration geh6ren, konnen 
successive, quasi durch Block-Moves nach dem Stand der Technik'in 
die CPU-Register geschrieben oder aus diesen gelesen werden. Ggf . 
implement ierte Block-Move-Instruktionen konnen bevorzugt durch die 
beschriebene integrierte RDY/ ACK Statusabf rage erweiterfc werden.. 

Eine zusatzliche oder alternative Variante sieht vor, dass die Da- 
tenverarbeitung innerhalb der an die CPU gekoppelten VPU exakt 
gleichviele Takte benotigt wie die ; Datenyerarbeitung innerhalb der 
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Rechenpipeline der. CPU. Insbesondere bei modernen Hochleistungs- 
CPUs mit einer Vielzahl von Pipelinestuf en (>20) kahn dieses Kon- 
■ zept ideal eingesetzt werden. Der besondere' Vorteil ist, dass kel- 
ne besonde^en Synchronisationsmechanismen wie z. B. -RDY/ACK not- 
wendig sind. Der Compiler braucht bei diesem Verfahren lediglich 
sicherzustellen, dass die VPU die erf ordexliche Anzahl an Takten 
pinhalt und ggf. «die Datenverarbeitung z. B. durch das Einfugen 
von Verzogerungsstuf en wie z. B. Registern und/oder den aus DE 110 
10 530, Fig. 9/10, "bekannten Fall-Through FIFOs auszubalanciereri. 

Eine weitere Variante ermoglicht ein unterschiedliches Laufzeit- 
■ verhalten zwischen dem Datenpfad der CPU und der VPU, Dazu werden 
vom Compiler. bevorzugt zunachst die Datenziigrif f e derart v umsor- 
tiert, dass eine wenigstens im wesentlichen maximal e Unabhangig- 
15 keit zwischen den Zugrif fen durch den Datenpfad der CPU und der 
VPU vorliegt. Die maximale Distanz definiert damit den maximalen 
Laufzeitunterschied zwischen dem CPU Datenpfad und der VPU. Mit 
anderen Worten wird bevorzugt durch eine Reordering Methqde, wie 
sie per se nach dem 'Stand der Technik bekannt ist, der Lauf zeitun- 
20 • terschied zwischen* CPU-Datenpf ad und VPU-Datenpf ad ausgeglichen . 
\ Wenn'der Laufzeitunterschied zu gjrofi ist, urn durch ein Umsortieren 
der Datenzugrif fe gelost zu werden, konnen per Compiler NOP- 
/Zyklusn (also Zyklusn, in denen der CPU-Datenpf ad keine Daten ver- 
arbeitet). eingeftigt und/oder per Hardware so ' range WarteZyklusn im 
25 CPU-Datenpfad generiert werden, bis die. no twe^digen. Oaten von der 
VPU in das Register geschrieben wurden. Dazu konnen die. Register ■ 
mit einem zusatzlichen Bit versehen werden, das das -Vorhandensein 
gultiger Daten anzeigt. 

Es ist ersichtlich, . dass eine Vielzahl von einfachen Modif lkatio- 
nen und unterschiedlichen Ausgestaltungen dieser Grundverf ahren 
moglich ist.< 

Die bereits erwahnte* Wave-Rekonf iguration, inbesondere auch das 
Vorladen von Konf igurationen; in Schattenkonf igurationsregister, 
erlaubtdas sukzessive Starten eines neuen VPU-Befehls und der 
entsprechenden Konf iguration, sobald die Operanden des vorherge- 
henden VPU-Befehls aus den CPU-Registern abgenommen wurden. Die ^ 
Operanden flir den neuen Bef ehl konnen direkt nach Befehlsstart in ■ 
die CPU-Register geschrieberi werden. Entsprechend des Wave- ^ 
Rekonfiguration-Verfahrens wird die VPU sukzessive mit Fertigstel- 
lung der Datenverarbeitung des vorherigen VPU-Befehls fur den neu- 
en VPU-Befehl umkonf iguriert und die neuen Operanden verarbeitet. 

Buszugrif fe 

Weiterhin konnen Daten zwischen einer VPU und einer CPU durch ge- 
eignete Buszugrif fe auf gemeinsame Ressourcen ausgetauscht werden. 

50 . Cache 

* Sofern Daten ausgetauscht werden sollen, die kurz zuvor von der 
CPU verarbeitet wurden und daher voraussichtlich noch im Cache 
(0109) der CPU liegen bzw. sofort anschliessend von der CPU veraf- 
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beitet werden und daher sinnvollerweise in den Cache der CPU ge- 
legt werden, werden diese bevorzugt von der VPD aus dem Cache der 
CPU gelesen, bzw. in den Cache der CPU geschrieben. Dies kann 
durch geeignete Analysen weitestgehend vorab zur Compilezeit der 
Applikation durch den Compiler festgestellt und'es kann der Binar- 
code entsprechend generiert werden. 
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Sofern Daten ausgetauscht werden sollen, die sich yoraussichtlich 
nicht im Cache der CPU befinden' bzw. voraussichtlich nicht nach- 
folgend im Cache der CPU benotigt werden, werden diese bevorzugt 
von der VPU direkt vom externen Bus (0110) und der damit verbunde- 
hen Datenquelle ,(z.B. Speicher, Peripherie) gelesen, bzw. an den 
externen Bus und der damit verbundenen Datensenke (z.B. Speicher, 
Peripherie) geschrieben. Dieser'Bus kann insbesondere derselbe wie 
der externe BUS der .CPU sein (0112 & gestrichelt) . Dies kann durch 
geeignete Analysen weitestgehend vorab ziir Compilezeit der Appli- 
kation durch' den Compiler festgestellt und der Binarcode entspre- 
chend generiert werden. 

Bei einem Transfer uber den Bus .am Cache vorbei wird bevorzugt ein 
Protokoll (0111) zwischen Cache und Bus implement iert, das fur ei- 
nen korrekten Inhalt des Caches sorgt. Beispielsweise kann das per 
se bekannte MESI-Protokoll nach dem Stand der~Techiiik hierzu ver- 
25 wendet .werden. 

Cache /RAM- PAE Kopplung 

Ein besonders bevorzugtes Verfahren ist die enge Kopplung von RAM- 
PAEs an den Cache der CPU. Dadurch kdnnen Daten schnell und effi- 
zient zwischen dem Speicher- und/oder 10- Datenbus und der VPU 
ubertragen werden. Die Datenubertragung nach extern wird weitest- 
gehend automatisch durch den Cachekontroller durchgef tihrt . 



35 Insbesondere bei Taskwechselvorgangen, fur Realtime' Anwendungen 

und Multithreading CPUs bei dem Wechsel von Threads erlaubt dieses 
Verfahren einen s'chnellen und unkomplizierten Datenaustausch. 

Zwei grundlegende Verfahren stehen zur Verfugung: . 

a) RAM- PAE / Cache Kopplung 

Die RAM-PAE ubertragt Daten z. B. zum Lesen und/oder Schreiben von 
externen und insbesondere Hauptspeicher-Daten direkt zu und/oder 
vom Cache. Dazu kann bevorzugt ein separater Datenbus nach DE 196 
54 595 und DE 199 26 538 verwendet werden, uber welchen unabhangig 
von der Datenverarbeitung innerhalb der VPU und insbesondere auch 
'automatisch gesteuert, z.B. durch eigenstandige Adressgeneratoren, 
Daten zu oder von dem Cache ubertragen werden kOnnen. 

50 b) RAM-PAE als Cache-Slice 
' In einer besonders bevorzugten Ausgestaltung weisen die RAM-PAE s. 
keinen internen Speicher auf, sondern sind direkt an Blocke ^ (Sli- 
ces) des Caches gekoppelt. Mit anderen Worten, beinhalten die RAM- 
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PAEs lediglich die Busansteuerungen fur die lokalen Busse, sowie- 
eventuelle Zustandsmaschinen und/oder eventuelle Adressgenerato- 
ren, der Speicher befindet sich jedoch innerhalb einer Cachespex- 
cherbank auf die die RAM— PAE direkten Zugriff hat. Jede RAM-PAE 
besitzf eine eigene Slice innerhalb des Caches und kann unabhangxg 
und insbesondere gleichzeitig zu den anderen RAM- PAEs und/oder der 
CPU auf den Cache, bzw. den eigenen Slice zugreifen. Dies kann 
einfach dadurch realisiert werden, dass der Cache aus mehreren un- 
abhangigen Banks (Slices) aufgebaut ist. 

Sofern der Inhalt einer Cache-Slice durch die VPU verandert wurde, 
kann dieser bevorzugt als "dirty" markiert werden, woraufhxn der 
Cachekontroller diesen automatisch in den externen und/oder Haupt- 
Speicher zuruckschreibt ■. 

Fiir manche Ahwendungen kann zusatzlich eine Write-Through Strate- 
gie implementiert oder gewahlt sein. Hierbei werden neu vqn der 
VPU in die RAM- PAEs gesch'rieben Daten direkt mit jedem Schreibvor- . 
gang 1 in den externen und/oder Haupt-Speicher zuriickgeschrxeben. 
Dadurch entfallt zusatzlich die Notwendigkeit Daten nut "dxrty zu 
markieren und diese bei einem Task- und/oder Threadwechsel xn den 
externen und/oder Haupt-Speicher zuruckzuschrexben. 

in beiden Fallen kann es sinnvoll sein, bestintate Cache-Bereiche 
25 fur die' RAM- PAE/ Cache Kopplung fur den Zugriff durch dxe CPO zu 
sperren. , 

An die beschrieberie Archxtektur, insbesondere direkt an die VPD, 
kann ein EPGA (0113) gekoppelt sein, urn f eingranulare Datenverar- 

30 beitung zu ermoglichen und/oder ein flexible adaptierbare Inter- 
face (0114) (z. B. diverse serielle Schnittstellen (V24, DSB, 
etc.), diverse parallele Schnittstellen, Festplattenschnittstel- 
len, Ethernet, Telekommunikationsschnittstellen (a/b, TO, ISDN, 
' DSL, etc.) zu weitereh Baugruppen und/oder dem externen Bussystem 

35 (0112) • zu ermoglichen. Der FPGA kann dabex aus der VPU- 

Architektur, insbesondere durch die CT, und/oder durch dxe CPU • 
konfiguriert werden. Der FPGA kann statisch; also ohne Rekonfxgu- 
ration zur Laufzeit und/oder dynamisch, also mit Rekonfxguratxon 
zur Laufzeit, betrieben werden. 
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FP GAs in ALUs , .. . i-k 

In einer "prozessororientierteren" Ausgestaltung konnen xnnerhalb 
einer ALU- PAE FPGA-Elemente aufgenommen werden. Dabex kann ein 
FPGA-Datenpfad parallel zu der ALU gekoppelt sein, oder in einer 
bevorzugten Ausgestaltung der ALU vor,- oder nachgeschaltet sexn. 

Innerhalb von in Hochsprachen wie C geschriebenen Algorithmen tre- 
ten bit-orientierte Operationen zumeist sehr sporadxsch auf una 
sind nicht besonders aufwendig. Daher ist ein FPGA-Aufbau von ex- 
nigen wenigen Zeilen von Logikelementen jeweils miteinander ver 
koppelt durch eine Zeile von Verdrahtungskanalen hinreichend. Eine 
derartige Struktur lasst sich kostengunstig und einfach program- 

. 8 
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" mierbar in die ALU einbinden. Ein wesentlicher Vorteil ftir die - 
nachfolgend erlauterten Progxammiermethoden kann sein, dass die 
Durchlauf zeit durch die FPGA-Struktur derart begrenzt 1st, dass 
sich das Lauf zeitverhalten der ALU nicht verandert .Register brau- 
5 chen riux zur Speicherung von Daten fur ' deren Einbeziehung als Ope- 
randen in den im nachsteri Takt nachf olgeriden Verarbeitungszyklus 
• zulassig zM sein. 

' Besonders von Vorteil ist die Implementierung von optional hinzu- . 

10 ■ konfigurierbaren Register/ vm ein sequentielles Verhalten der 
Funktioh durch beispieisweise Pipelining herzustellen. Dies ist 
besonders dann von Vorteil/ .wenn Rueckkopplungen in dem Code fuer 
die ,FPGA-Struktur vorkommen. 'Diese kann der Compiler dann ueber 
das ' Einschalten solcher Register per Konf iguration abbilden und . 

15 ' somit. sequentiellen Code korrekt -abbilden; Der .Zustandsmaschine 

der PAE, die deren Abarbeitung steuert, wird die t Anzahl der einge- 
fuegten Register per Konf iguration mitgeteilt, sodass. diese. ihre 
• Steuerung, ins'besondere ' auch' der PAE-extemen Datenuebrtfagung , 
auf die erhoehte Latenzzeit abstimmen kann. 

20 , ■ . 

< Von besonderem Vorteil ist ein Aufbau der FPGA-Struktur r die ohne 
Konf iguration, also Z; B. nach einem Reset, automatisch auf ne'u- ^ 
tral geschaltet ist/ d. "h.. die Eingangsdaten ohne. jegliche Modifi- 
kation durchleitet. Damit werden, bei 'nicht ySrwendeten FPGA- . 
25 Strukturen keinerlei Konf igiirationdaten zu deren Einstellung beno- 
tigt und somit, Konf iguirations zeit und -datenplatz in den Konfigu- 
i rationsspeichern eingespart.- 

30 ' . • ' ' ' ... . ' 

Betriebssystenuaechanismen , 

Die beschriebenen Verfahren sehen ziinachst keinen besonderen Me- 
chanismus fur die , Unterstiitzung von >Betriebssystemen vor.- Es ist 
35 namlich bevorzugt sicherzustellen, dass ein auszufuhrendes Be- 

triebssystem sich entsprechend des. Status einer zu ^ unterstutzenden 
• VPU verhalt. Insbesondere sind Scheduler erf orderlich. 

Bei einer engen Rechenwerkkopplung wird bevorzugt das Statusregi- 
40 ster der 'CPU abgefragt, in welches die angekoppelte VPU ihren Da- 
tenverarbeitungsstatus (Terminierungs signal) eintragt. Soli eine • 
weitere Datenverarbeitung an die VPU libertragen werden, und die 
VPU hat die vorherige Datenverarbeitung noch nicht beendet, wird 
gewartet oder bevorzugt ein Taskwechsel ausgefuhrt. 

Grundsatzlich kann die Ablauf steuerung einer VPU direkt von einem 
auf der CPU ausgefuhrteh Programm erfolgen, das quasi das Hab.pt- 
programm darstellt, das bestimmte Unterprogramme auf die VPU aus- 
lagert. 

Ftir eine Coprozessorkopplung. werden bevorzugt. Uber das Betriebs sy- 
stem, i.b. den Scheduler gesteuerte Mechanismen verwendet, wobei 
grundsatzlich die Ablauf steuerung einer VPU direkt von' einem auf 

9 
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der CPU' ausgefilhrten .Programm erfolgen kann,. das quasi das Haupt- 
programm darstellt, das bestimmte Unterprogramme auf die VPU aus- 

■ lagert : ... . „_ , ^ . ,. 

Ein einfacher Scheduler kann nach Ubertragung einer Funktion auf 

5 eine VPU 

1. ' das aktuelle Hauptprogramm auf der" CPU weiterlaufen lassen, 
' sofern dieser unabhangig . und parallel zur Datenverarbeitung 
auf einer VPU ablaufen 'kann; 
2. sofern oder sobald das Hauptprogramm auf die Beendigung der 
0 " Datenverarbeitung auf der. VPU warten muss, schaltet der Task- 
scheduler auf einen anderen Task"(z.B. ein anderes Hauptpro- 
gramm) urn. Die VPU kann'dabei unabhangig des gerade aktuellen, 
CPU-Tasks im Hintergruhd weiterarbeiten.- . . 

5 , Jeder neu aktivierte Task muss ,. ' sofern er die VPU verwendet, vor 

• Verwendung prufen, .ob diese .fur eine Datenverarbeitung zur Verfu- 
gung steht oder aktuell rioch Daten' verarbeitet; . dann muss entweder 
auf die Beendigung der Datenverarbeitung gewartet oder bevorzugt 
der Task gewechselt werdeh. ' ' : •• '. 

Ein einf aches urid dennoch leistungsf ahiges Verfahren kann -durch 
sogenannte' Descriptor ' Tables aufgebaut- werden, .die bespielsweise 
folgendermassen realisiert werden konnen: 

Jeder Task geheriert zum'Aufruf der VPU eine '<5der mehrere Tabel-. 

25 le (n) (VPUPROC) mit einem geei'gneten f estgelegten Datenf ormat in 
dem ihm zugewiesenen Speiche'rbereich, Diese Tabelle beeinhaltet • 
samtliche Steuer information fiir eine VPU, wie z. B.' das auszufuh- 

*' rende Programm / die auszuftihrende (n) Konf iguration (en) (oder Zea- 
ger auf die- entsprechenden Speicherstellen) und/oder Speicherstel- ' 

30 le(n) (Oder jeweils Zeiger darauf) und/oder Datenquellen (oder Je- 
wells Zeiger darauf) . der Eingangsda'ten und/oder die Speicherstel- 
ie(n)- (oder jeweils. Zeiger darauf) der Operanden oder der Ergeb- 

• nisda'ten. 

i ■ 

35 ' Entsprechend Figur 2 kann sich im Speicherbereich des Betriebssy- 

• stems 'beispielsweise eine Tabelle oder verkettete Liste (LINKLIST, 
• 0201)' bef inden, . die auf samtliche VPUPROC-Tabellen (0202) in der 

Reihenfolge ihrer Erstellung und/oder ihres Aufrufs zeigt. 

40 Die Datenverarbeitung auf der VPU lauft nunmehr derart ab, dass 
ein Hauptprogramm einen VPUPROC erstellt und tiber das Betriebssy- 
stem die VPU aufruft. Das Betriebssystem erstellt einen Emtrag m 
der LINKLIST. Die VPU arbeitet die LINKLIST ab und f tihrt .'die je- 
weils 'referenzierten VPUPROC aus. Die Beendigung einer jeweiligen 

45 Datenabarbeitung wird jeweils durch einen entsprechenden Emtrag 

• in die LINKLIST und/oder VPUCALL Tabelle angezeigt. Alternativ 
konnen Interrupts von der VPU zur CPU als Anzeige undggf. auch 
zuni Austausch des VPU-Status verwendet werden. 

50 Die VPU arbeitet in diesem erf indungsgemali bevorzugten Verfahren 
, ' weitgehend unabhangig von der CPU. Insbesondere kann die CPU und 
die VPU. uhabhangige und unterschiedliche Tasks je Zeitemheit aus- 
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fuhren. Das Betriebssystem und/oder die jeweiligen Task mussen le- 
diglich die Tabellen (LINKLIST bzw. VPUPROC) uberwachen. 

Alternativ kann auchauf die LINKLIST verzichtet werden, indem die 
'5 VPUPROCs. untereinander durch Pointer verkettet werden, wie es z.B. 
aus. Listen bekannt ist. Abgearbeitete VPUPROCs werden aus der Li- 
ste entfernt, -neue in die Liste eingeftigt. Das Verfahren ist P.ro- 
grammierern bekannt und muss daher nicht weitergehend' ausgeftihrt - 
werden. . 



Multithreading/Hyperthreading 

Von besonderem Vorteil ist die Verwendung von Multithreading 
und/oder Hyperthreading Technologien, bei welchen ein - bevbrzugt 
15. in Hardware implementierter - Scheduler feingranular Applikationen 
und/oder Applikationsteile (Thread) auf Ressourcen innerhalb des 
Prozessors verteilt. Dabei wird der VPU-Datenpfad als eine .'Res- 
Ik . source fiier den Scheduler' betrachtet . Eine saubere Trennung des ' 
W CPU-Datenpfades und des VPU-Datenpf ades ist durch Implementierung . 
20 von Multithreading und/oder Hyperthreading Technologien im Compi-' 
ler bereits per Definition. gegeben. Zusaetzlich entsteht der Vor- 
teil, dass be-i belegter VPU-Ressource innerhalb eines Task einf ach 
zu einem anderen TJask, gewechselt werden; kann und somit eine besse- 
re Auslastung .der Ressourcen erfolgt. Gleichz^itig wird die paral- 
25 .lele Ausnutzung von CPU-Datenpf ad und VPU-Datenpfad zugleich be- 
guenstigt - • 

Insoweit stellt Multithreading und/oder Hyperthreading ein gege- 
nueber den vorstehend beschriebenen LINKLIST zu bevorzugendes Ver- 
fahren dar. 
30 . * 

Besonders performanceef f izient arbeiteii die beiden Verfahren, wenn ' 
als VPU eine Architektur zum Einsatz kommt, die eine mit der Da- 
tenverarbeitung iiberlagerte Rekonf iguration zulaisst, wie z. B..die 
Wave-Reconfiguration 'nach DE 198 07. 872, DE .199 26 538, DE 100 28 
35 397. 

Damit ist es moglich, eine neue Datenverarbeitung und eine ggf . 
damit verbundene Reconfiguration 'sofort riach lesen der letzten 
.Operanden aus den Datenqueilen zu starten. Mit anderen Worten ist 
fur die Synchronisation nicht mehr das Beenden der Datenverarbei- 
40 tung, sondern das Lesen der- letzten Operanden erforderlich. Da- 

durch wird die Performance der Datenverarbeitung erheblich gestei- 
gert. 

Figur 3 zeigt. einen moglichen interneri Aufbau eines Mikroprozes- 
45 sors Oder Mikrokontrollers . Dargestellt ist der Kern (0301) eines- 
Mikrokontrollers oder Mikroprozessofs . Der beispielhafte Aufbau 
beinhaltet weiterhin eine Load/Store Einheit zum Ubertragen der 
Daten zwischen dem Kern urid dem externen Speicher und/oder den Pe- 
ripheriegeraten. Die tibertragung findet tiber das Interface 0303 
50 statt, an das weitere Einheiten, wie MMUs, Caches, etc, angekop- 
pelt seih koennen. 

In einer Prozessoranchitektur nach dem Stand der Technik ttbertragt 
die Load/Store Einheit die Daten zu oder von einem Registersatz 



11 



Akte: PACT 2 9 



0 3 / 0 0 9 4 2 



(0304) , welcher sodann die Daten fiir die interne Weiterverarbei- 
tung zwischenspeichert . Die interne Weiterverarbeitung findet in 
einem oder mehreren Datenpfaden statt, die jeweils identisch oder 
auch unterschiedlich ausgestaltet sein konnen (0305)'. Insbesondere 
konnen auch mehrere Registersatze vorhanden sein, wobei diese wie- 
derum ggf - an unterschi.edliche Datenpfade angekoppelt sein konnen 
(z.B. Integer-Datenpfade, Fioating-Point-Datenpf ade, DSP- 
Datenpfade / Multiply-Accumulate-Einheiten) . 

- j 

Datenpfade entnehmen typischerweise Operanden aus der Registerein- 
heitund schreiben die Ergebnisse nach der Datenverarbeitung wie- 
der an die Regis tereinheit zuruck. Dem Kern zugeordnet (oder im 
Kern beinhaltet) ist eine Ins trukt ions ladeeinheit (Opcode-Fetcher, 
0306) , die die Programmcodebef ehle aus dem Programmspeicher ladt, 
iibersetzt und sodann die notwendigen Arbeitsschritte innerhalb . des 
Kerns ansteuert. Das Holen der Befehle geschieht uber ein Inter- 
face (0307) zu. einem Codespeicher, dem ggf .. MMUs, Caches, etc. 
zwischengeschaltet sein konnen. 

Dem Datenpfad. 0305 parallelgeschaltet ist der VPU-Datenpf ad 
(0308), der auf den Registersatz 0304 lesend und uber die nachfol- 
gend beschriebene Daten-Register-Zuordungseinheit (0309) schrei- 
bend zugreifen kann. Der Aufbau eines VPU Datenpfades ist-bei- 
spielsweise aus DE 196 51 075, DE 100 50 442,' ^DE 102 06 653 und 
mehreren Verof f entlichungen der Anmelderin bekannt. 

Der VPU-Datenpfad wird uber den Konf igurationmanager (CT) 0310 
konfiguriert, der die Konf igurationen ubereinen Bus 0311 aus ei- 
nem externen Speicher ladt. Der Bus 0311 kann identisch mit 0307 
sein, wobei je nach. Aus gestaltung zwischeh 0311 und 0307 und/oder 
den Speicher ein oder mehrere Caches ' geschaltet sein konnen. 

Welche Konf igu'ration zu einem bestimmten Zeitpunkt konfiguriert 
und ausgefuhrt werden soil, wird uber besondere Opcodes durch den 
OpCode-Fetcher 0306 definiert. Dazu kann einer Reihe von fiir den 
VPU-Datenpfad reservierten Opcodes eine Anzahl von mSglichen Kon- 
f igurationen zugeordnet werden. Die Zuordnung kann Uber eine um 7 
programmierbare Lookup-Tabelle (siehe 0106) , die 0310 vorgeschal- 
tet ist, erfolgen, so dass die Zuordnung frei programmierbar und 
innerhalb der Applikation veranderbar ist. 

In einer applikationsabhangig mSglichen Ausgestaltung kann bei ei- 
nem Aufruf einer VPU-Datenpfadkonf iguration das Zielregis.ter der 
Datenberechnung in der Daten-Register-Zuordungs-einheit (0309) 
verwaltet werden. Dazu wird das vom Opcode definierte Zielregister 
in einen Speicher bzw. Register (0314) geladen, der - urn mehrere 
VPD-Datenpfadaufrufe direkt nacheinander und ohne Berucksichtigung 
der Abarbeitungszeit der jeweiligen Konf iguration zuzulassen als 
FIFO ausgestaltet sein kann. Sobald eine Konfiguration die Ergeb- 
nisdaten liefert, werden diese mit der jeweils zugeordneten Regi- 
steradresse verknupft (0315) und das entsprechende Register in 
0304 selektiert und beschrieben. 
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Damit kSnnen eine Vielzahl von VPU-Datenpf adaufruf e direkt hinter- 
. einander und insbesondere iiberlagernd erfolgen. Es ist lediglich 
sicherzustelleh, beispielsweise durch Compiler oder Hardware, dass 
die Operanden und Ergebnisdaten derart gegenliber der Datenverar- 
5 beitung in' dem Datenpfad 0305 umsortiert sind, dass keine Storung 
durch unterschiedliche Laufzeiten in 0305 und 0308 auftreten. 

Wenn der Speicher bzw. FIFO 0314 voll ist, wird die Verarbeitung 
einer ggf , neuen Konf iguration fttr 0308 verzSgert'-' Sinnvollerweise 
10 kann 0314 so viele Registerdaten aufnehmen, wie- 0308 Konf iguratid- 
nen in einem Stack "• (siehe ' DE 197 04 728, 

DE 100 28 397, DE 102 12 621) vorladen kann. Uber, deh Speicher 
.0314 kSnnen 'zusatzlich zu einer Verwaltung durch den Compiler auch 
die Datenzugriffe auf den Registersatz 0304' gesteuert werden. 

15 

Findet ein Zugriff auf ein Register, <ias in 0314- vermerkt ist, 
statt, kann dieser so lange verzogert werden, bis das Register be- 
1 schrieben wurde und dessen Adresse. aus 0314 entfernt wurde . 

20 Alternat,iv und bevorzugt konnen die einfachen Synchronisa- 

tionsmethoden nach 0103 verwendet werden, wobei eiri besonderes 
synchrones Datenempf angsregister in dem Registersatz 0304 vorgese- 
hen sein kann, auf das nur dann lesend zugegriffen werden kann, 
wenn der VPU-Datenpf ad 0308 zuvor neue Daten ' in das Register ge- 

25 schrieben hat; umgekehrt konnen Daten von dem VPU-Datenpf ad nur 

dann geschrieben werden, wenn die yorherigen Daten gelesen wurden. 
Insoweit kaiin 0309 efsatzlos entfallen. 

Wird eine VPU-Datenpf adkonf iguration aufgerufen die bereits konfi- 
30 guriert ist, findet keine Neukonf iguration mehr, statt. Daten wer- 
den sofort zur Verarbeitung aus dem. Registersatz 0304 in den VPU- 
Datenpf ad* ubertragen und verarbeitet. Der Konf iguratidnmanager 
speichert die aktuell geladene Konf igurat ions kennnummer in einem^ 
Register und vergleicht diese mit der von. zu ladenden Konfigurati- 
35 ons kennnummer, die beispielsweise . ueber eine Lookup-Tabelle (siehe 
0106) an 0310 ubertragen wird. Nur werin die Nummern. nicht tiberein- 
stimmen, wird die aufgerufene Konf iguration neu konf iguriert . 

Die Load/Store-Einheit ist in Fig. 3 nur schematisch und grundle- 
40 gend dargestellt, eine bevorzugt e Ausfuhrung wird in Fig. 4 und 5 
ausfUhrlich dargestellt. Uber ein Bussystem 0312 kann der VPU- 
Datenpfad (0308) direkt Daten mit der Load/Store Einheit und/ oder 
dem Cache ubertragen, uber einen weiteren appiikationsabhangig 
moglichen Datenpfad 0313 konnen Daten direkt zwischen VPU- 
45 Datenpfad (0308) und Peripheriegeraten und/oder externem Speicher 
ubertragen werden. 

Figur 4 zeigt eine besonders bevorzugte Ausgestaltung der 
Load/Store-Einheit- 
50 Ein wesentliches Datenverarbeitungsprinzip der VPU Architektur 
' sieht an das Array .'aus ALU-PAEs gekoppelte Speicherbloecke vor, 
. die quasi als Registersatz fttr Datenblocke dienen. Das Verfahren 
ist aus DE 196 54 846, DE 101 39 170, DE 199 26 538, DE 102 06.653 
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bekannt.- Hierzu bietet, es sich, wie nachfolgend beschrieben, an, 
LOAD und STORE Befehle als Koaf iguratiori "innerhalb der VPU abzuar- 
beiten, was eine Verschaltung der VPU mi t der Load/Store Einheit 
(0401) der CPU uberflttssig macht. Mt anderen Worten generiert die 
5 VPU ihre Lese- und Schrpibzugrif fe selbst, wodurch ein- direkter 
Anschluss- (0404) an den ; externen und/oder Haiipt-Speicher sinnvoll 
i5t. Dieser geschieht bevorzugt iiber* einen Cache (0402), der der- 
selbe wie der Datencache des Prozessors sein kann. Die Load/Store- 
- Einheit des Prozessors (0401) greift direkt und parallel zu der 
10 VPU (0403) auf den Cache zu.ohne - im Gegensatz zu. 0302 - einen 
Datenpfad fur die VPU aufzuweisen. 

Figur 5 zeigt besonders bevorzugte Ankoppluncjen der VPU an den ex- 
1 ternen und/oder Haupt- Speicher Ober einen Cache 1 
15 Die einfachste Verbindungsmethode ist uber, einen IO-Anschluss der 
VPU, wie' beispielsweise ' aus DE 196 51 075.9-53, DE 196 54 595.1- 
53, DE 100 50 442.6, DE 102 06 653.1 bekahnt, uber welchen Adres- 
sen und Daten zwischen Peripherie und/oder Speicher und der VPU 
ubertragen werden. Besonders leistungsf ahig sind aber direkte An- 
*20 . kopplungen zwischen- den RAM-PAEs und dem. Cache, wie aus DE '196 54 '. 
595 und .DE .199 26 538 bekannt. Beispielhaft fur eiri rekonf igurier- , 
bares Datenverarbeitungs element ist eine PAE dargestellt, aufge- 
baut auseiner Hauptdatenverarbeitungseinheit (0501), die/ typi- 
scherweise als ALU, RAM, FPGA, IO-Anschluss atfsgestaltet ist, und 
25 zwei seitlichen- Datenubertragungseinheiten (0502, 0503) , die ih- 
rerseits eine ALU-Struktur und/oder' Registerstruktur aufweisen 
' koiinen. .Desweiteren sind die Array-internen, zur. PAE gehorenden 
horizontalen Bussysteme 050'4a und 05t)4b dargestellt. 

30 ' In Figur 5a sind RAM-PAEs (0501a)', die jeweils . einen eigenen Spei- 
cher beinhalten . gemaG DE" 196 -54 595 und DE .199 26' 538 ■ uber einen 
Multiplexer. 0511 an einen C&che 0510 gekoppelt. Cachekontroller 
und Verbindungsbus des Caches zum Hauptspeicher sind nicht darge- 
' stellt. Die RAM-PAEs . weisen bevorzugt einen separaten- Datenbus 
(0512) mit eigenen Ad'ressgeneratoren (siehe auch DE 102 06.653) ■ 
• auf,. tun Daten selbstaridig in den Cache ubertragen zu konnen. 

•'. " . • ■ : i ■ 

Figur "5b zeigt eine optimierte Variante. 0501b sind keine vollwer- 
.tigen RAM-PAEs, sondern beinhalten nur die Bussysteme und seitli- 
40 chen -Datenubertragungseinheiten (0502, ,0503.). Anstatt des inte- 

grierten Speichers in 050-1 ist lediglich eine Busverbindung ,(0521) 
zu dem Cache -0520 implementiert . Der Cache "ist in mehrere Segmente 
unterteilt 05201, • 05202 ... 0520n, die jeweils einem 0501b zuge- 
ordnet sind und far diesen 0501b bevorzugt exklusiv reserviert 
45 sind. Der Cache' stellt somit quasi die Menge aller RAM-PAEs der 
VPU und den Datencache (0522) der CPU dar. 

Die VPU schreibt ihre internen (Register-) Daten direkt in deri 
Cache, bzw. liest diese direkt aus dem Cache. 
50 Vefanderte Daten kSnnen mit "dirty" markiert werden, woraufhin der 
nicht eingezeichriete Cachekontroller diese automatisch im Haupt- 
speicher updated. Alternativ stehen ' Write-Through Verfahren zur 
Verftigung, bei denen ver^nderte Daten direkt- in den Hauptspeicher 

14 



Akte: PACT29. 



40 



0 P^fDE 



0 3 / 0 0 9 4 2 



geschrieben werden und das verwalten des" "dirties" uberfliissig 
wird. 

Die direkte Kopplung nach Figur 5b ist besonders bevorzugt, da sie , 
5 'ausserst f lachenef f izient ist und einfach durch die VPU zu handha- 
' ben ist, da die Cachekontroller die Datenubef tragung zwischen 
' ' Cache - und somit der RAM- PAE - und Hauptspeicher automat is ch 
Obernehmen. 

10 Figur 6 zeigt die .Ankopp lung einer FPGA-Struktur in« einen Daten- 
pfad am Beispiiel der VPU .Architektur . 

0501 ist der Hauptdatenpf ad einer PAE. Bevorzugt werden FPGA- 
Strukturen direkt nach den Eingangsregistern • (vgl . PACT02, PACT22 ) • 
eingefuegt (061,1) und/oder direkt vor den Ausgang des Datenpfades 
15 auf das Bussystem eingefuegt (0612) . ( • 

Eine moegliche. FPGA-Struktur ist in 0610 dargestellt, der. Aufbau 
ist an PACT 13 Figur 35 ange.lehnt. 

Die FPGA Strukfcur ist ueber einen Dateneingang •. (0605) und. einen , 
Datenausgang ,(0606) ' in die ALU eirigekoppelt . Jeweils abwechselnd ; 
20 sind , 

a) in einer Zeile (0601) Logikelemente angeordnet, die bitweise 
-ldgische (AND, OR, NOT, XOR, etc) Operationen ueber eingehende Da- 
ten durchfuehren.. Diese Logikelemente koennen ziusaetzlich lokale 
Busverbindungen aufweisen, ebehso koerinen Register zur Datenspei- 

25 cherung • in den Loglkelementen "vorgesehen sein. 

b) in einer Zeile (060,2) Speiaherelemente angeordnet, die bitweise 
' Djaten der Logikelemente speichern. Ihre Aufgabe ist. b.ei Bedarf die 

- zeitliche Entkopplung - also das zyklische Verhalten - ein'es se- 
quentie'llen. Programmes darzustellen,. sofern dies von Compiler ge- 
30, fordert wird. Mit anderen Worten wird durch, diese Registerstuf en 
das sequentielle Verhalten * eine s J Programmes in . Form einer Pipeline 
innerhalb von 0610 nachgebildet , • 

Jeweils zwischen den Elementen 0601 t und 0602 befinden sich hori- 
35 zontale. konf igurierbare Signalnetzwerke, die entsprechend der be- 
kannten FPGA Netzwerke aufgebaut sind. Diese erlauben- eine ho-ri- 
zontale Verschaltung und Uebertragung von Sighalen. 

Es kahn zusaetzlich ein . vertikales Netzwerk (.0604) zur Signalue- 
bertragung vorgesehen sein, das ebenfalls entsprechend der bekann- 
ten FPGA Netzwerke aufgebaut auf gebaut ist . Mittels dieses Netz- 
werks lass.en sich.Signale an mehreren Zeilen von Elementen 0601 
und 0602 vorbeiuebertragen. 

45 Da die Elemente 0601 und 0602 typischerweise bereits eine Anzahl 

vertikales Bypass-Signal-Netzwerkfe aufweisen ist 0604 nur optional 
und bei einer grossen Anzahl von Zeilen erf orderlich. 

Zur Abstimmung der Zustandsmas chine der PAE auf die jeweils konfi- 
50 gurierte Tiefe der Pipeline in 0610, also die Anzahl (NRL) der 
' einkonfigurierten Registerstuf en (060*2') zwischen dem Eingang 
(0605) und dem Ausgang (0606), 'ist ein Register 0607 implemen- 
tiert, in welches NRL konfiguriert wird.-Anhand dieser Daten 
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stimmt die Zustandsmas chine die Generierung der PAE internen Steu- 
erzyklen. und insbesondere auch der Handshake-Signale ' (PACT02, . 
PACT1 6, PACT18) fuer die PAE-externen Bussysteme ab. 

5 Weitere moegliche FPGA-Strukturen sind beispielsweise von Xilinx 
und Altera bekannt/ wobei diese bevorzugt eine Registerstruktur 
nach 0 610 aufweisen. 

Figur 7 zeigt mehrere Strategien Code-Kompatibilitaet zwischen un- 
10 terschiedlich grossen VPUs zu erzielen: 

0701 ist eine ALU -PAE- (0702) RAM- PAE- (0703) Anordnung die eine 
moegliche "kleine" VPU definiert. Es soil im folgenden da von aus- 
gegangen werden, dass Code fuer diese Sfcruktur generiert wurde und 
nuiunehr auf anderen groesseren VPUs abgearbeitet werden soil. 

15 

Ein erster mdeglicher Ansatz ist den Code fuer die neue Ziel-VPU 
neu zu compilieren*. Dies bietet insbesondere. den Vorteil,. dass 
eventuell in einer neuen' Ziel-VPU nicht mehr vorhandene Funktionen 
dadurch . nachgebildet werden, dass der Compiler Macros fuer diese • 
20 Funktionen instanttiert , die dann die urspruengliche Funktion 
nachbilden. Die Nachbildung kann entweder durch die Verwendung 
mehrerer PAEs erfolgen und/oder durch den Einsatz von Sequenzern 
wie nachfolgehd beschrieben (z.B. fuer Division, Floating-Point, 
komplexe Mathematik, etc) und beispielsweise * Sus PACT 02 bekannt. 
25 Der klare Nachteil des Ver.fahfens ist, dass die Binaer- 
Kompatibilitaet verloren geht. 

. Die in Figur 7 beschriebenen Verfahren- erhal'ten die Binaerkdde- 
Kompatibilitaet . 

Ein erstes einfaches Verfahren sieht das einfuegen von "Wrapper"- 
Code vor (0704) , der die Bussysteme zwischen einem kleinen AL.U — 
PAE Array und den RAM- PAEs verlaengert. Der' Code beinhaltet ledig- 
lich die Konf iguration fuer die Bussysteme und wird in den beste- 
hende Binaerkode, beispielswiese zur Konf igurationszeit und/oder 
zur Ladezeit aus einem Speicher eingefuegt. 

Der einzige Nachteil des Verfahren ist, dass eine laenger Ueber- 
tragungszeit der Inf ormationen ueber die verlaengerten Bussysteme 
entsteht. Bei vergleichsweise niedereri Frequenzen kann dies ver- 
nachlaessigt werden (E!ig. 7a a)). 

In Figur 7a b) ist eine einfache optimierte Variante dargestellt 
in welcher die . Verlaengerung der Bussysteme' ausgeglichen 'und damit 
weniger f requenzkritisch ist, das sich die Laufzeit fuer das Wrap- 
per-Bussystem gegenueber Fig. 7a a) halbiert. 

45 Fuer hoehere Frequenzen ist das Verfahren nach Fig. 7b einsetzbar, 
bei welcher eine groessere VPU ein Superset der kompatiblen klei- 
nen VPU (0701), darstellt und "die kompletten Strukturen von 0701 
repliziert werden. Dadurch ist eine direkte Binaerkompatibilitaet. 
einfach gegeben. 



Ein optimales Verfahren sieht nach Figur 7c zusaetzliche Hochge- 
schwindigkeitsbussysteme vor, die einen Anschluss (0705)- an jede 
PAE oder jeweils an eine Gruppe von PAEs aufweisen. Derartige Bus- 
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systeme sind aus anderen Patentanmeldungen der Anmelderin bekannt, 
beispielswiese aus PACT 07 . Ueber die Anschluesse 0705 werden die 
Daten auf ein Hochgeschwindigkeitsbus system (0706) uebertragen, 
das diese dann ueber eine grosse Strecke perf ormanceef f izient ue- 
5 bertraegt. Als derartige Hochgeschwindigkeitsbussysteme koennen 

beispielsweise Ethernet, RapidIO, USB, AMBA, RAMBUS und andere In- 
dustriestandards verwendet werden. 

' Dex Anschluss an das Hochgeschwindigkeitsbussystem kann entweder 
10 durch einen Wrapper wie fuer Fig. 7a beschrieben eingefuegt wer- 
den, Oder architektonisch bereits fuer 0701 vorgesehen sein. In 
diesem Fall wird bei 0701 der Anschluss einfach direkt an die be- 
nachbarte Zelle weitergeleitet und nicht verwendet. Die Hardware 
abstrahiert das nicht-Vortiandensein des Bus sys terns . 

15 

' Im vorstehenden wurde allgemein auf die Kopplung zwischen einem 
Prozessor und einer VPU bzw., allgemeiner, einer insbesodnere zur 
20 Laufzeit ganz und/oder partiell und/oder schnell, d.h. in wenigen 
TaktZyklusn vollstandig rekonf igurierbaren Einheit Bezug genom- 
men. Diese Kopplung kann durch die Verwendung bestimmter' Betriebs- 
verfahren respektive durbh dem Betrieb vorhergehenden geeign'ete 
Kompilierung unterstutzt und/oder .erreicht weifden. Geeignete Kom- 
25 > pilierung kann dabei wie erforderlich auf nach deiu Stand der Tech- 
nik bestehender und/oder auf erf indungsgemafl verbesserte Hardware 
Ruckgriff nehmen. 

Parallelisierende Compiler nach dem Stajid der Technik verwenden 
30 fur gewqhnlich spezielle Konstrukte, wie Semaphore und/ Oder ande- 
re Verfahren zur Synchronisation. Dabei werden typischerweise 
technologiespezifische. Verfahren verwendet. Bekannte Verfahren 
sind aber nicht geeignet, um funktional spezif izierte Architektu- 
ren mit dem zugehorigen Zeitverhalten und imperativ spezif izierte 
35 Algorithem zu kombinieren,- Daher liefern die verwendeten Methoden 
nur in Spezialf alien zuf riedenstellende L5sungen. 

Compiler fur rekonf igurierbare A'rchitekturen, insbesondere rekon- • 
figurierbare Prozessoren, verwenden fur gewohnlich Makros-, die . 
40 speziell fur die bestimmte rekonf igurierbare Hardware erstellt 

wurden, wobei far die Erst.ellung der Makros fur zumeist Hardware- 
beschreibungssprachen (wie z. B.'Verilog, VHDL, System-C) verwen- 
det werden. Diese Makros werden dann von einer gewohnlichen Hoch- 
sprache (z. B. C, C++) aus dem Programmf luss heraus aufgerufen 
45 (instantiiert) . 

Compiler fur Parallelrechner sind bekannt, die auf einer grobgra- 
.nularen Struktur, zumeist basierend auf kompletten Funktionen Oder 
Threads, Programmteile auf mehrere Prozessoren abbilden. Weiterhin 
50 sind vektorisierende Compiler bekannt, die eine weitgehende linea- 
" re Datenverarbeitung, wie z. B. Berechnungen grofier Ausdrucke in 
eine vektorisierte Form umwandeln und damit die Berechriung auf su- 
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perskalaren Prozessoren und Vektorprozessoren (z. B- Pentium, 
Cray) ermoglichen.. 

Dieses Patent beschreibt daher, weiter ein Verfahren zur automatic 
5 schen Abbildung von funktional oder imperativ formulierten Rechen- 
vorschriften auf unterschiedliche Ziel'technologien, insbesondere 
auf ASICs , -rekonfigurierbare Bausteine (FPGAs, DPGAs, VPUs, Ches- 
sArray, KressArray, Chameleon, etc.; im folgenden unter dem Be- 
griff VPtJ zusammengefaBt) , sequentielle Prozessoren (CISC-/RISC- 
10 CPUs, DSPs, etc.; im folgenden unter dem Begriff CPU zusammenge- 
fafit) und parallele Rechnersysteme (SMP, MMP, etc.). 

VPUs bestehen grundsatzlich aus einer mehrdimensionalen homogenen 
oder inhomogenen, flachen oder hierarchischen Anordnung .(PA) von 
15 Zellen (PAEs), die beliebige Funktionen, i. b., logische und/oder 
arit'hmetische Funktionen (ALU-PAEs) und/oder Speicher funktionen 
. (RAM-PAE/s) und/oder Netzwerkfunktiohen ausfuhren konnen.' Den PAEs 
1st eine Ladeeinheit (CT) izugeordnet, die die Funktion der PAEs 
durch Konfiguration und gegebenenf alls Rekonf iguration bestiitimt. 

Das Verfahren basiert auf einem abstrakten parallelen Maschinenmo- 
dell, das '. neben- dem endlichen Automaten auch imperative Problem- 
spezifikatibnen integriert und eine ef fiziente algorithmische Ab- 
■ leitung einer Implementierung auf unterschiedliche Technologieh 
25 ermoglicht. 

Die Erfindung ist eine Weiterentwicklung der Compilertechnologie 
nsich DE 101 3.9 170.6, weiche besonders die enge XPP-Anbindung an 
. einen Prozessor innerhalb dessen Datenpfaden beschreibt und einen 
30 daftir besonders geeigneten Compiler offenbart, der zudem auch XPP 
Standalonesysteme ohne enge Prozessorkopplung . verwendet werden. 

Zumindest folgende Compilerklassen sind nach dem- Stand der Technik 
bekannt: Klassische Compiler, die haufig Stack-Maschi'nen-Code ge- 
35 nerieren'und fur sehr einf ache Prozessoren- geeignet waren, die im 
Wejsentlichen als normale Sequerizer ausgestalt.et sind.. (vgl . 
N.Wirth, Compilerbau, Teubner Verlag) . * 

Vektorisierende Compiler bauen weitgehend linearen Code, der auf i 
40 spezielle Vektorrechner oder stark gepipelinede Prozessoren abge- 
stimmt ist. Ursprunglich waren diese. Compiler fur Vektorrechner 
wie CRAY verfiigbar. Moderne Prozessoren wie Pentium benotigen auf- 
grund der langen Pipelines truktur' ahnliche Verfahren. Da die ein- 
' zelnen Rechenschritte vektorisiert _(gepipelined) ablaufen, ist der 
45 Code sehr viel effizienter. Allerdings. bereitet der bedingte 

Sprung Probleme fur die Pipeline. Daher ist eine Sprungvorhersage 
sinnvoll, die. ein Sprungziel annimmt . Ist die Annahme falsch, muss 
jedoch die gesamte Verarbeitungspipeline geloscht werden.- Mit an- 
deren Worten ist jeder Sprung fur diese Compiler problematisch, 
50' eine Parallelverarbeitung im eigentlichen Sinn ist nicht gegeben. 
' Sprungvorhersagen und ahnliche Mechanismen erfordern einen erheb- 
lichen Zusatzaufwand an Hardware. 
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Grobgranulare parallele Compiler existieren im eigentlichen* Sinne 
kaum, die Parallelitat wird ' typischerweise durch den Programmierer 
oder das Betriebssystem markiert und verwaltet, also beipi.elsweise 
bei MMP~Cpmputersystemen wie verschiedene IBM Architekturen, ASCII 
5 Red etc. :zumeist auf Thread-Ebene durchgef uhrt . Ein Thread ^ist ein 
weitgehend unabhangiger Programmblock oder gar ein anderes Pro- 
gramm. Threads sind daher grobgranular einfach zu parallelisieren. 
Die Synchronisation und Datenkonsistenz ist vom Programmierer bzw. 
dem Betriebssystem- sicherzustellen. Dies ist aufwendig zu program- 
10 • mieren und erfordert einen wesentlichen Anteil- der ' Rechenleistung 
eines Parallelrechnexs . Zudem ist durch j l diese grobe Parallelisie- . . 
rung nur ein Bruchteil der eigentlich rrioglichen Parallelitat tat- 
sachtlich nutzbar.. - .'. 

15- Feingrahulare parallele (z. B.- YLIW) .Compiler versuchen, die Par- 
allelitat feingranular in VLIW-Rechehwerke abzubilden> die mehrere 
Rechenoperationen in .eiriem' Takt parallel ausftihren koniien, aber 
'einen gemeinsamen Registersatz besitzen. Ein wesentliches Problem 
s.tellt dieser limitierte Registersatz dar, da er die Daten fur , . 
samtliche Rechenoperationen bereitstellen muss. Zudem erschweren- 
,Datenabhangigkeiten ( und inkonsisteiite Lese/Schreiboperationen 
(LOAD/STORE) die Parallelisierung . <. .\ 

1 Rekonf igurierbare Prozessoren weisen eine groffe Anzahl ,an uhabh&n- 
25 gigen Rechenwerken auf. Diese "sind nicht' durch einen gemeinsamen 
Registersatz, sondern durch Busse miteinander verbunden . Dadurch 
lassen'-sich einerseits leicht Vektorrechenwerke : aufbauen, anderer- • 
seits korinen auch einfach parallele Operationen durchgef uhrt wer- 
den. Durch die Busverbindungen werden entgegen der .herkommlichen 
"30 Registerkonzepte Datenabhangigkeiten aufgelost. ' 
» • * * 

" Erf indungsgemS.fi wurde gemafl einem ersten wesentlichen Aspekt er- , 
kannt, dafl fur. einen Compiler fur rekonf igurierbare Prozessoren 
die Konzepte yon vektorisierenden Compilern und parallelisierenden 
35 (z. B. VLIW) Compilern zugleich anzuwenden sind und somit auf • 
f eingranularer Ebene zu vektorlsieren und parallelisieren ist. 

Ein wesentlicher Vorteil besteht darin, dass der Compiler nicht 
auf eine fest vorgegebene Hardwarestruktur abbilden muss* sondern. 
40 die Hardwarestruktur so ! konf iguriert wird, dass sie optimal fur 
die Abbildung des. jeweiligen compilierten Aigorithmus geeignet 
. ist. . . • ' - 1 - " ' . 

45 Beschreibung der erfindungsgemaBen kompilier- und Datenverarbei- 
tungs vorrichtungsbe triebsverf ahren 

Moderne Prozessoren weisen zumeist einen Satz an benutzerdef inier- 
baren Befehlen (UDI) auf, die fur Hardwareerweiterungen und/pder 
50 spezielle Coprozessoren und. Beschleunigern zur Verfiigung stehen. 
. Sofern UDIs nicht zur Verfiigung stehen, weisen Prozessoren zumin- 
dest freie, bislang noch unbenutzte Befehle und/oder Spezialbef eh- 
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le fur Coprozessoren auf - der Einfachheit halber werden alle die- 
se Befehle nachfolgend unter dem Begriff UDI zusammengefasst . 

Eine Menge dieser UDIs k6nnen nan gemaB einem Aspekt der Erfindung 
5 verwendet werden, um eine als Datenpfad in den Prozessor eingekop- 
pelte VPU anzusteuern. Beispielsweise- • kann durch UDIs das. Laden 
und/oder Loschen und/oder Starten von Konf igurationen ausgelost 
( werden, ' urid zwar kann eine bestimmte UDI auf eine konstant blei- 
bende und/oder wechselnde Konf iguration Bezug' nehmen. 
10 • 

Bevorzugt . werden Konf igurationen in einen Konf igur at ions-cache , ' 
der lokal der VPU zugeordnet ist, vorgeladen und/oder in Konfigu- 
rationsstacks nach DE 196 51 075. 9-53 , DE 197 04 728.9 und DE 102 
12 621.6-53 vorgeladen, aus denen sie zur Laufzeit bei Auftreten 
15 einer eine Konf iguration startende UDI schnell konf iguriert und 

ausgeftihrt werden konnen. Das Konf igurationsvorladen kai-in in einen 
mehreren ;PAEs oder PAs gemeinsamen. Korif igurationsmanager und/oder 
in einen lokalen Konf igurationsspeicher an und/oder .in einer PAE 

■ • erfolgen, wobei dannnur noch dxe Aktivierung ve'ranl'afit werden' 

0. mufl. ' 

Bevprzugt wird ein .Satz an Konf igurationen vorgeladen. Allgemein 
entspricht bevorzugt je eine' Konf iguration einer Lade-UDI. Mit ■ an- 
deren Worten ref erenzieren die Lade-UDIs auf ' j-'e eine Konf igurati- 

25 on. Zugleich 1st es, auch mogli'ch, mit. einer Lade-UDI auf eine kom- 
plexe Konf igurations'anordnung Bezug zu nehmen,' bei der etwa sehr 
• umf angreiche Funktionen, die ein- mehrf aches Umlandeh' des Arrays 
' wahrend der Aus'fiihrung erfordeirn, eine - auch wiederholjte - Wave- 
Rekonf iguration usw. durch eine einzelne UDI ref erenzierbar sind. 

30 . ; , . • " • t ' . t 

Wahrend des Betriebes konnen Konf igurationen durch andere .ausgp- 
wechselt werden und d;Le Lade-UDI s dementsprechend umtef erenziert 
werden. Eine bestimmte Lade-UDI kann also zu "einem ferst'en Zeit- 
punkt auf eine erste Konf iguration ref erenzieren und bei einem . 
35 zweiten , Zeitpunkt auf eine mittlerweile neu geladene zweite Konfi- 
guration ref erenzieren. Es kann dies dadurch geschehen, dafl etwa 
ein Eintrag in einer Ref erenzliste, auf • die gemafi UDI zugegrifferi 
werden soil, geandert . wird. 

40 Irn Rahmen der Erfindung wird fur den Betrieb der VPU ein 

LOAD/ STORE Mas chinenmo dell zugrundegelegt, wie es beispielsweise 
von RISC-Prozessoren bekannt 1st. Jede Konf iguration wird als ein 
Befehl verstanden. Separat zu den datenverarbeitenden Konfigura- . 
tionen sind die LOAD und STORE Konf igurationen . 

45 

Ein Datenverarbeitungsablauf (LOAD-PROCESS-STORE) findet dement- 
sprechend z. B. wie folgt statt: 

1 . LOAD-Konf iguration 
50 Laden der Daten aus z. B. einem externen Speicher,' einem ROM eines 
SOCs, in dem die Gesamtanordnung integriert ist, und/oder der Pe- 
ripherie in die interne Speicherbank (RAM- PAE, siehe DE 196 54 
846.2-53 , DE 100 50 442.6). Die Konf igura-tion umfafit erforderli- 
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chenfalls Adressgeneratoren und/oder Zugrif f ssteuerungen, urn Daten 
von prozessorexternen Speichern und/oder Peripherie zu lesen und 
in* die ■ RAM-PAEs zu schreiben.- Die RAM-PAEs konnen fur den Betrieb 
als mehrdimensibnale Datenregister- (z. B. Vektorregister) verstan- 
den werden. . 
2. - (n-1) . • Datenverarbeitungs-Konf igurationen 

Die datenverarbeitenden Konf igurationen werden sequentiell nach- 
einander in das PA konf iguriert : Die Datenverarbeitung findet ent- 
spechend .eiries LOAD/STORE (RISC) Prozessors bevorzugt ausschliess- 
lich zwischen den RAM-PAEs - die als 'mehrdimensionale Datenregi- 
ster verwendet werden - statt. 



n.' STORE-Konfiguration 

Schreiben der Daten aus den internen Speicherbanken (RAM-PAEs) an ■ 
15 den externen Speicher bzw. die Peripherie. Die Konf iguration um- 
fafit Adressgeneratoren und/oder Zugrif fssteuerungen, urn Daten von 
• den RAM-PAEs. an. die prozessorexternen Speicher und/oder Peripherie 
zu schreiben, • 

Fuer die Grundlagen der LOAD/STORE Operationen sei auf PACT11 ver- 
wiesen. . . 



Die Adressgenerierfunktionen der LOAD/STORE-Konf igurationen sind 
derart optimiert, dass beispielsweise bei eiri£r nicht linear en Zu- 
25 griff sfolge* des Algorithmus auf externe Daten die entsprechenden 
Adresspattern von den Konfigurationen generiert werden. Die Analy- 
se der Algorithmen und das Erstellen der .Adressgeneratoren fur 
LOAD/STORE erfolgt durch den Compiler. 

30 Dieses. Arbeitsprinzip kann durch die Abarbeitung von .Schleifen 

einfach verdeutlicht werden, Beispielhaft soli von' eiher VPU mit 
256 Eintraege tiefen RAM-PAEs ausgegangen werden: 

• Beispiel a) .: 5 
35 for i := 1 to 10000 

1. LOAD-PROCESS-STORE Zyklus 

2. LOAD-PROCESS-STORE Zyklus 

3. LOAD-PROCESS-STORE Zyklus 



Lade & verarbeite 1* . , 
•Lade & verarbeite 257 
Lade & verarbeite 513 



256 
. . 512 
768 



40 



Beispiel b) : 
for i := 1 to 1000 
for-j := 1 to 256 



45 1. LOAD-PROCESS-STORE Zyklus 
i = 1; j = 1 256 

2. LOAD-PROCESS-STORE Zyklus 

i = 2; j = 1 . . . 256 

3. LOAD-PROCESS-STORE Zyklus 
50 i = 3; j = 1 . . . 256 



: Lade & verarbeite 
: Lade & verarbeite 
: Lade & verarbeite 



Beispiel c) 
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'for i := 1 to 1000 
for j 1 to 512' 

1. LOAD-PROCESS-STORE Zyklus : Lade & verarbeite 

i - ,1; j = 1 .'. . 256 • 
«2. LOAD-PROCESS-STORE Zyklus : Lade & verarbeite 

i = 1; j = 257 . . . 512 
3. LOAD-PROCESS-STORE Zyklus': Lade & verarbeite 

i = 2; j = I . . • 256 



Von besonderem Vorteil ist, wenn jede Konf iguration als atomar - 
also nicht- unterbrechbar - betrachtet wird. Dadurch wird das Pro- 
blem gelost, dass bei einer Unterbrechung die internen Daten des 
15 PAs und der interne Status gesichert werden mussen.., Wahrend der 
Ausfuhrung einer K6nf iguration wird der jeweilige Status zusammen 
mit den Daten in die RAM-PAEs geschrieben. 



Der Nachteil des Verfahren ist, dass zunachst keine Aussage uber 
das Lauf zeitverhalten einer Konf iguration getroffen werden kann. 
Dadurch entstehen jedoctr Nachteile bezuglich der Echtzeitf ahigkeit 
und des -Taskwechselverhaltens . 

Daher wird als erf indungsgeituifi bevorzugt vorg£schlagen, die Lauf- 
25 zeit jeder Konf iguration auf e'ine bestimmte Maximalanzahl von Tak- 
ten zu beschr^nken. Die Lauf zeitbeschrimkung ist kein wesentlicher 
Nachteil, da typisch eine Obergrenze bereits durch die Grofle der 
RAM-PAEs und der damit verbundenen Datenmenge festgelegt ist. Sin- 
nigerweise korrespondiert die GroBe der RAM-PAEs mit der Maxima- 
30 lanzahl von Datenverarbeitungstakten einer Konf iguration, woniit 
eine typische Konf iguration auf einige 100 bis 1000 Takte be- 
schrSnkt wird. Durch diese Beschrankung kennen Multithrea-* 
ding/Hyperthreading-, sowie Realtime-Verf ahren zusammen mit einer 
VPU implementiert sein. 

Die Laufzeit von Konf igurationen wird bevorzugt' uber einen (mit 
dem Takt oder einem anderen .Signal mitlauf enden) Mitlauf zahler 
bzw. Watchdog/ z. b'. einen. ZShl'er iiberwacht. Bei einer Zeituber- 
schreitung lost der Watchdog einen Interrupt und/oder Trap aus, 
• 40 der ahnlich eines "illegal opcode" Traps von Prozessoren verstan- 
den und behandelt werden kann. 

Eine Einschrankung kann zur Reduzierung von Rekonf igurationsvor- 
gahgen und zur Perf ormance-Steigerung alternativ eingefuhrt wer- 
45 ' den : 

Laufende Konf igurationen konnen den Watchdog retriggern und somit 
langer ablaufen, ohne gewechselt werden , zu miissen. Ein Retrigger 
ist nur dann zul&ssig, wenn der Algorithmus einen "sicheren" Zu- 
stand ( Synchronisations zeitpunkt) erreicht hat, in dem alle Daten 
50 und Zustande in die RAM-PAEs geschrieben sind und eine Unterbre- 
m chung algorithmisch zulassig ist. Der Nachteil dieser Erweiterung 
ist, dass eine Konf iguration im Rahmen .ihrer Datenverarbeitung in 
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einen Deadlock laufen- konnte, jedoch den? Watchdog weiterhin or- 
dentlich retriggert und somit die Konfiguration nicht terminiert. 

Eine Blockade der VPU-Ressource durch eine derartige Zombie- 
5 ' Konfiguration kann dadurch verhindert werden, dass das Retriggern 

des Watchdog durch einen Taskwechsel unterbunden werden kann und 
' somit die Konfiguration zum nachstfolgenden Synchronisations zeit- 

punkt Oder nach eiher vorgegeben'en Anzahl von Synchronisations- 

zeitpunkten gewechselt wird. Dadurch terminiert zwar der den Zom- 
10 bie aufweisende Task nicht mehr, das Gesamtsystem .lauf t jedoch or- 

dentlich weiter. . 

Als eine weitere Methode kann optional Multithreading und/ oder 
Hyperthreading fur das Maschinenmodell bzw. den Prozessor einge- 
15 ftihrt werden. Sairitliche' VPU-Routinen, also deren Konf igurationen, 
werden dann bevorzugt als eigener Thread betrachtet . Da die.VPU • 
als Rechenwerk in den Prozessor eingekoppelt ist, kann sie als ei- 
ne Ressource fur die Threads betrachtet werden, Der. nach den Stand 
der Technik fur Multithreading implementierte Scheduler (siehe 
20 auch P 42 21 278.2-09) verteilt automatisch fur VPUs programmierte 
Threads (VPU-Threads) auf diese. Mit anderen Worten verteilt der 
Scheduler die unterschiedlichen Tasks automatisch innerhalb des 
Prozessors. 

25 Dadurch entsteht eine weitere 'Ebene an Parallelismus . Sowohl reine 
Prozessor-Threads als auch VPU-Threads werden parallel verarbeitet 
und konnen automatisch ohne besondere Zusatzmaftnahmen durch den 
Scheduler verwaltet. werdexi*. 

30 Besonders leistungsf ahig ist 'das Verfahren, wenn der Compiler wie 
bevorzugt und regelmaliig moglich » Programme in mehrere parallel ab- 
arbeitbare '.Threads zerlegt und' dabei samtliche VPU-Programmab- 
• schnitte in einzelne VPU-Threads aufteilt. 

35 Urn einen schnellen Taskwechsel, insbesondere auch. Realtime-Systeme 
zu unterstutzen/ konnen mehrere VPU/Datenp fade, die jeweils als 

1 eigenstandige Ressource betrachtet werden, implementiert sein. 

Gleichzeitig erhoht sich dadurch auch der Gra'd an Parallelitat, da 
mehrere VPU-Datenpf ade parallel nutzbar ,sind. 

40 . i , 

Urn Realtime-Systeme besonders zu untersttitzen, konnen bestimmte- 
VPU-Resspurce fur Interrupt-Routinen reserviert sein, sodass fur 
eine Antwort auf einen eintref f enden Interrupt nicht bis ^ zur Ter- 
minieruhg der atomaren, nicht unterbrechbaren Konf igurationen ge~ 

45 wartet werden muss. Alternativ dazu konnen VPU-Ressourcen ^ fur In- 
terrupt-Routinen gesperrt sein, d. h. keine Interruptroutine> kann 
eine VPU-Ressource verwenden und/oder einen entsprechenden Thread 
beinhalten. Damit sind ebenfalls schnelle Interrupt Antwortzeiten 
gegeben. Da typischerweise innerhalb von Interruptroutinen keine 

50 oder nur wenige' VPU-per'f ormante Algorithmen vorkommen, ist dieses 
Verfahren bevorzugt. Sofern der Interrupt zu einem Taskwechsel 
fuhrt, kann wahrenddessen die VPU-Ressource terminiert werden; im 
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Rahmen des . Taskwechsels steht gewohnlicherw.eise ausreichend Zeit 
zur Verfugung. ' • 

Ein bei Taskwechseln auftretendes . Problem kann sein, dass\der zu-' 
5 vor beschriebene LOAD-PROCESS-STORE Zyklus unterbrochen werden 
muss, ohne dass samtliche Daten und/oder Status info rmationen aus 
den RAM— PAEs in die externen RAMs und/oder Per ipheriegerate ge- ' 
schrieben wurdeh-. 

10 Entsprechend, gewohniicher Prozessorefr (z. B. RISC LOAD /STORE Ma- 
schinen) wird nunmehr eine Konf iguration PUSH eingefuhrt, die, z. 
B. bei einem Taskwechsel, zwischen- den Konf igurationen des LOAD- 
PROCESS-STORE Zyklus eingeftigt werden kann. PUSH sichert die in- 
ternen Speicherinhalte der RAM- PAEs nach extern, z . B. auf einen 
15 Stack; extern bedeutet hier z. B. extern zum PA oder einem PA- 
Teil, 'kann aber auch auf Peripherie usw. Bezug nehmen. Insoweit 
: entspricht PUSH s omit in seiner Grundlage dem Verf ahren . klassi- 
scher Prozessbren. Nach Au : sflihrung der PUSH Operation kann der 
Task gewechselt werden, d.h. der aktuelle LOAD-PROCESS-STORE- 
0 t -Zyklus kann abgebrochen werden und ein LOAD-PROCESS L STORE-Zyklus 
des nachsten Tasks kann ausgeftihrt werden, Der abgebrochene. LOAD- 
PROCESS-rSTORE Zyklus' wird bei einem nachfolgenden 'Taskwechsel auf. 
den entsprechenden Task an der Konf iguration (KATS) , die nach der 
letzten .durc'hgeftihrten Konf iguration folgt, wteder aufgesetzt . Da- • 
25 zu wird vor dem Konf igurieren. *yon KATS. eine POP Konf iguration 
■'■ durchgefuhrt, die wiederum entsprechend der Verf ahren bei bekann- :' 
ten Prozessoren die Daten fur die RAM- PAEs ■ aus den externen Speir 
chern ladt, z. B. dem Stack- 

'30 Als besonders leistungsf ahig* wurde hierfur eine erweiterte' Version 
der RAM- PAEs nach DE 196 54 595.1-53 und DE 199 26 538.0 erkannt," ' 
bei welcher die RAM- PAEs direkten Zugrif f auf einen. Cache haben 
(DE 199 26 538.0) (Fall 'a)' oder. als besondere Slices innerhalb ei- 
nes Caches betrachtet werden bzw. direkt gecach'ed werden konrien 
.35 (DE 196 54 595.1-53) (Fall B.) . 

Durch den direkten Zugrif f der RAM- PAEs auf einen Cache oder die 
direkte Imp lementie rung ' der RAM- PAEs in einem Cache konnen die 
Speicherinhalte bei einem Taskwechsel schnell und einfach ausge- 
taus'cht werden. 

Fall ' A: Die RAM-PAE Inhalte werden' .tiber einen bevorzugt separaten 
. und eigenstandigen Bus in den Cache geschrieb.en und aus diesem neu 
geladen. Die Verwaltung des Caches ttbernimmt ein Cachekontroller 
nach dem Stand der Technik. Dabei mussen nur die RAM- PAEs in den 
45 Cache geschrieben werden, die gegenuber dem ursprtinglichen Inhalt 
verandert wurden. Dazu kann ein "dirty" Flag fur die RAM- PAEs ein- 
gefuhrt werden, welches anzeigt, ob ein RAM-PAE beschrieben und 
verandert wurde. Dali da^tir entsprechende Hardware-Mittel zur Im- 
plementierung vorgesehen werden konnen, sei erwahnt. 



50 



Fall B: Die RAM-PAEs liegen direkt im Cache und sind dort als Son- 
derspeicherstellen markiert, die nicht von den normalen Daten- 
transfers zwischen Prozessor und Speicher beeinflusst werden. Bei 
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einem Taskwechsel werden andere Cache Abschnitte ref erenziert . 
Veranderte RAM-PAEs konnen mit dirty markiert werden. Die Verwal- 
tung des Caches liegt beim Cachekontroller . 

Bei Anwendung der Falle A und/oder B kann ein Write-Through- 
Verfahren applikationsabhangig erhebliche deschwindigkeitsvorteile 
erzielen. Dabei werden die Daten der RAM'-PAEs . und/oder Caches bei 
jedem Schr^ibzugrif f durch die VPU direkt an den externen Speicher 
durchgeschrieben. Daiuit bleibt der RAM-PAE uhd/oder Cacheinhalf 
gegentiber dem externen Speicher (und/oder Cache) zu jedem Zeit-. 
punkt sauber. Die Notwendigkeit bei einem Taskwechsel die RAM-PAEs 
gegentiber dem Cache bzw. den Cache gegentiber . dem externen Speicher 
upzudaten, entfallt. 

15 " Unter Verwendung derartiger Verfahren kcmnen " PUSH und POP Konfigu- 
. rationen entfallen, da die Datentransf ers fur die Kontext-Switches" 
von der : Hardware aus'gefuhrt werden. 

Durch die Beschrankung der Lauf zeit von .Konf igurationen und der 
Unterstutzung sctineller Taskwechsel wird die Realtime-Fahigkeit 
eines VPU-gesttitzten . Prozessors . sichergestellt 

'Der LOAD-PROZESS-STORE-Zyklus erlaubt eine besonders effiziente 1 
Debugging-Methode des' P.rogramidcodes nach DE 101 42 904.5. Wenn wie 
25 bevorzugt jede Konf iguration a"ls atomar und somit ununterbrechbar 
betrachtet wird, liegen die fur das Debugging relevanten Daten 
und/oder Zustande grundsatzlich nach Beendigung der Verarbeitung 
einer Konf iguration in den RAM-PAEs . Der Debugger muss somit le- 
• diglich auf die RAM-PAEs zugreifen, um alle wesentlichen Daten 
30 und/oder Zustande zu erhalten. ' . 

. Damit ist die Granularitat einer . Kqnf iguration ' hinreichend debug - 
- bar. Sofern Details tiber die abgearbeiteten Konf iguratiorien debug- 
ged werden m,ussen> wird nach DE 101 42 9.04.5 ein Mixed Mode Debug- 
35 ger verwendet,- bei welchem die RAM-PAE-I.nhalte' vor und nach einer 
Konfiguration gelesen werden und die Konf iguration" selbst mittels 
eines Simulators , der die Abarbeitung der Konfiguration simuliert, 
tiberprtift wird. 

40 Sofern die Simulationsergebnisse i^icht mit den Speicherinhalten 

der RAM-PAEs nach Ablauf der auf der VPU verarbeiteten Konfigura- 
tion ubereinstimmen, ist 'der Simulator nicht mit der Hardware kon- 
sisteht und es liegt entweder ein Hardware- oder Simulatorf ehler 
vor, der sodann von dem Hers teller der Hardware bzw. der Simulati- 

45 ' onssoftware tiberprtift werden muss. 

Es soli besonders darauf hingewiesen werden, dass die Begrenzung 
der Lauf zeit einer Konfiguration auf. eine maximale Anzahl an Zy- 
' klusn die Anwendung von Mixed-Mode-Debuggern besonders begtinstigt, 
50 da somit' nur eine relativ geringe Anzahl von ";Zyklusn simuliert 
werden "muss . - 
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Durch das beschriebene Verfahren der atornaren Konf igurationen wird 
auch das Setzen von Breakpoints vereinf acht, da das Uberwachen der 
Dateri nach dem Auf treten einer Breakpoint-Bedingung nur an den ■ 
RAM-PAEs notwendig ist, so dass nur dies e* mi t Breakpoint-Registern 
5 und -Vergleichern ausgestattet werden mussen. 

In einer erweiterten Hardware-Variante konnen die PAEs Sequenzer 
nach DE 196 51 075.9-53 .(Fig. 17, 18, 21) -und/oder DE 199 26 538 .0 
aufweisen, wobei beispielsweise EintrSge des Konf igurationsstacks 
10 (vgl. DE 197 04 728.9, DE 100 28 397-7, DE 102 12 621.6-53) als 
Codespeicher fur einen Sequenzer verwendet werden. 

Es wurde erkannt, dass derartige Sequenzer zumeist sehr schwer 
durch Compiler beherrschbar uxid nutzbar sind. Daher werden bevor- 
15 zugt Pseudocodes far. diese Sequenzer zur .Verfiigung gestellt, auf 
welche Compiler-generierte Assemblerbef ehle abgebildet werden. 
Beispielsweise ist es inef f izient / Opcodes fur Division, Wurzel, 
Potenzen, geometrische Operationen, Komplexe Mathematik, Fliess- 
komma-Befehle etc. in Hardware zur Verfiigung zu stellen. Daher ^ • 
werden derartige Befehle als mehrzyklische Sequenzer-Routinen im- 
plementiert, wobei der Compiler bei Bedarf derartige Makros durch 
den Assembler instantiiert . 

Besonders interessant sind die Sequenzer beispielsweise fxir Appli- 
25 kationen, in welchen haufig Matrix-Berechnungen durchgefuhrt wer- 
den mussen. In dieseri Fallen lassen sich komplette Matrix- 
Operationen' wie beispielsweise eine 2x2 Matrixmultiplikation als 
Makros zusammenf assen und fur die Sequenzer zur Verfiigung stellen, 

30 Sofern in einer erweiterten Architekturvariante FPGA-Einheiten in " 
den ALU-PAEs implementiert sind, weist der Compiler folgende Opti- 
on auf : -; < 

Bei Auf.treten von ibgischen Operationen innerhalb des vom Compiler 
zu uebersetzenden Programmes, s z.B. &,!,»,« etc. generiert der 
35 Compiler eine der Operation entsprechende Logikfunktion fuer die 

FPGA-Einheiten innerhalb der ALU-PAE. Insoweit- der Compiler sicher 
feststellen kann, dass die Funktion keine zeitlichen Abhaenigkei- 
ten gegenueber ihren Eingangs- und Ausgangsdaten aufweist, kann 
auf das Einfuegen von Registerstuf en ,nach der Funktion verzichtet 

40 werden. , 

Ist eine zeitliche Unabhaengigkeit nicht sicher f eststellbar, wer- 
den hach der Funktion in der FPGA-Einheit Register hinzukonf igu- 
riert, die eine Verzoegerung urn einen Takt und somit die Synchro- 
nisation bewirken. 

45 Bei Einfuegen von Registern wird bei der Konf iguration der gene- 

rierten Konf iguration auf die VPU wird die Anzahl der eingefuegten 
Registerstufen per FPGA-Einheit in ein Verzoegerungsregister ge- 
schrieben, das die' Zustandsmas chine der PAE ansteuert. Dadurch 
kann die Zustandsmas chine das Verwalten der Handshakeprotokolle an 

50 die zusaetzlich auftretende Pipelinestuf e anpassen. 
" Nach eine Reset Oder einem Rekonf igurationssignal (z.B. Reconfig) 
(siehe PACT08, PACT16) werden die FPGA-Einheiten neutral geschal- 
tet, d.h-. sie lassen die Eingangsdaten ohne Modifikation an den 
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Ausgang durch. Somit benoetigen unbenutzte FPGA-Einheiten keiner- 
lei Konfigurationsinformation. 

Samtliche erwahnten PACT Patentanmeldungen sind zu Off enbarungs- 
zwecken vollumfanglich eingegliedert . 

Beliebige weitere Ausgestaltungen und Kombinationen der eriauter- 
ten Erfindungen sind moglich und einem Fachmann of f ensichtlicn. 
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Titel: prozessorkopplung 
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Patentansprtiche 

10 1 Verfahren zum Betrieb und/oder der Vorbereitung des Betriebs 

eines herkommlichen, insbesondere sequenziellen Prozessors und 
eines rekbnf igurierbaren Feldes von Datenverarbeitungsemhei-. 
ten, insbesondere eines _ lauf zeitrekonf igurierbaren Feldes von 
Datenverarbeitungseinhei'ten, 

15 worin ' ... . 

der herkommliche Prozessor in einem Satz aus emer Vielzahl 
von vordef inierten und nichtvordef inierten Befehle definierte 
Bef ehle abarbeitet ■ 

und Datenverarbeitungseinheitenfeldrekonfigurationen auslost, 
dadurch g e k e n n z e i c h n e t dafi 

die Datenverarbeitungseinheitenfeldrekonf igurationen bzw. Da- 
tenverarbeitungseinheitenfeldteil- und/oder. - • 
vorladerekonfigurationen im Ansprechen auf das Auftreten von 
dem Prozessor nicht vordef inierten Befehlen durch dies en aus- 
25 gelost und/oder bewirkt werden.' 

2 Verfahren nach dem vorhergehenden Anspruch, dadurch gekenn- 
zeichnet daB mehrere dem Prozessor nicht vordef mierte, son- 
de rn vom Benutzer definierte Befehle vorgesehen smd, .wobei 
30 auf unterschiedliche vom Benutzer definierte Befehle unter 

schiedliche oatenverarbeitungseinheitenfeldrekonf xgurationen 

bewirkt werden. 



3 Verfahren nach einem der vorhergehenden Anspruche, dadurch ge- 
35 •* kennzeichnet, dali eine Ref erenzierung auf Dat ? nvera J be1 ^^: 
einheitenfeldrekonfigurationen vorgesehen wird, urn dxe Verwal- 
tunq der Datenverarbeitungseinheitenf eldrekonf igurationen zu 
unterstutzen und insbesondere den Wechsel der Zuordnung von zu 
' ■ ladenden Konf igurationen- zu vom Benutzer def inierten Befehle 

40 zu erleichtern. 

• 4 Verfahren nach einem der vorhergehenden Anspriiche, dadurch ge- 
kennzeichnet dali mehrere Konf igurationen simultan geladen, 
• insbesondere fur eine auch nur evtl. mogliche und/oder erwar- 
45 tete Ausfilhrung, vorgeladen werden. 

5 verfahren nach einem der vorhergehenden Anspruche, dadurch ge- 
* kennzeichnet, dali im Befehlssatz der CPU und/oder des herkomm- 
lichen, insbesondere sequenziellen Prozessors load/store 
50 ins truktionen mit integrierter Status abf rage (load_rdy, 

store ack) vorgesehen werden, die insbesondere zur Steuerung 
von Schreib- und/oder Leseoperationen verwendet- werden. 
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6.. Verfahren nach .einem der vorhergehenden Ansprtfche, dadurch ge- 
kennzeichnet dali auf 'der VPU au'szuf uhrenden Konf igurationen 
" durch einen Instruktionsdekoder (0105) der CPU und/oder des 
anderen herkSmmlichen, insbesondere s.equenziellen Prozessors 
5 selektiert • werdeh, wobei dieser Instruktionsdekoder bestimmte, 

far die VPU bestimmte Instruktionen erkennt und bevorzugt, so- 
ferri dort vorhanden, deren Konf igurationseinheit (0106) derart 
.ansteuert, dass diese- die entsprechenden Konf igurationen aus 
einem der CT zugeo'rdneten Speicher (0107), der insbesondere 
10 mit der CPU geshared werden oder der'selbe wie der Arbeitsspei- 

cherder CPU sein karin, in' konf igurierbare Datenverarbeitungs- 
einhe'itfeld,* das' insbesondere als Array aus ,PAEs (PA, 0108) . 
gebildet ist, ladt. 

15 Ik Verfahren insbesondere nach dem vorhergehenden Anspruch zum 

Betrieb und/oder der Vorbereitung des Betriebs eines herkomm- 
lichen, insbesondere sequenziellen. Pmzess'ors und eines rekon-' 
f igurierbaren' Feldes von Datenverarbeitungseinheiten, insbe-. , 
sondere eines laufzeitrekpnf igurierbaren Feldes von Datenver- . . 
20 ' " arbeitungseinheiten, ' 

worin der herkommliche, insbesondere sequenziellen Prozessor • 
zumindest zeitweis^ in einem Multithreadingbetrieb betrieben 
■wird. . . . 



25 8. Verfahren nach einem der Vorhergehenden Ans p ruche, \ dadurch ge- 
kennzeichnet, dali zur Betriebsvorbereiturig insbesondere durch 
einen Compiler eine Anwendung in eine Vielzahl Threads zerlegt 
wird. . ' - * 

30 9- Verfahren nach einem der vorhergehenden Ansprttche, dadurch ge- 
kennzeichnet, dafi .fur den herkommlichen, insbesondere sequen- 
tiellen Prozessors Interruptroutinen insbesondere frei von 
Code fur das rekonf igurierbare Feld von 'Datenverarbeitungsein- 
heiten vorgesehen wird. 

35 • ' 

. 10. - Verfahren nach einem der vorhergehenden Anspriiche, dadurch ge- 
kennzeichnet, ' dafi laehrere VPU ' Datenpf ade implementiert werden, 
\ die jeweils als eigenstandige Ressource angesprochen werden 
und/oder parallel genutzt werden . : 

11. Verfahren nach einem der vorhergehenden Ansprttche, worin auf 
dem* rekonf igurierbaren Feld von Datenverarbeitungseinheiten 

. schwer parallelisierbare Operationen, insbesondere die Bestim- 

mung von Divisionen, Wurzeln, PotenzenV geometrischen Opera- 

45 , tionen, komplexmathematische Operation und/oder Flies skomma- 

Berechnungen verlagert werden und diese in form mehrzyklischer 
Sequenzer-Routinen auf dem rekonf igurierbaren Feld von Daten- * 
verarbeitungseinheiten' implementiert werden, insbesondere 
durch Instantiierung von Makros. 



50 



12. Verfahren nach einem der vorhergehenden Ansprttche,, dadurch ge- 
kennzeichnet, dafi. die Datenzugrif f e vor dem. Betrieb insbeson- 
dere- bei der Compilierung derart umsortiert werden, dass .eine 
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' verbesserte/ bevorzugt weitgehende, insbesondere wenigste'ns im 
wesentlichen maximale Unabhangigkeit zwischen den Zugriffen* 
durch den Datenpfad der CPU und der VPU vorliegt, urn so Lauf- . 
zeitunterschiede zwischen CPU-Datenpf ad und VPU-Datenpf ad aus- 

5 ' zugleichen, und/oder insbesondere"^ wenn der Lauf zeitunter- 

schied zu .grofl bleibt; per Compiler NOP-Zyklen eingefugt 
und/oder per Hardware so lange WarteZyklen im CPU-Datenpf ad 
generiert werden, b'is nbtwendige Daten fur 'eine Weiterverar- 
beitung von der VPU vorliegen und insbesondere in das Register < 

10 - geschrieben wurden Oder dies erwartet werden kann, was .insbe- 
sondere durch Setzen eines zusatzlichen Bits im Register ange- 
zeigt werden kann. v 

13. Verfahren nach einem der vorhergehenden Ansprtiche, dadurch ge- 
L5 " kennzeichnet, dafi fttr den'Betrieb des rekonf igurierbaren Fel- 

des -von Datertverarbeitungseinheiten LOAD und/oder; STORE. Kon- 
figiirationen vorgesehen werden,- wobei- insbesondere, eine LOAD 1 - 
Konfiguration derart' ausgestaltet ist, dafi Daten aus z. B. ei-„ 
nem externen Speicher in einen internen Speicher /geladen wer- 
den, wozu insbesondere Adressgeneratoren und/oder Zugriffs- . 
steuerungen* konfiguriert werden, urn Daten yon prozessorexter- 
nen Speichern. : urid/oder Peripherie zu' lesen und in die internen 
Speicher, insbesondere RAM -PAEs zu schreiben und zwar insbe- 
" sondere derart wie beim Betrieb als mehrdimensionale Datenre- 
25 gister (z. B. Vektorregister ) und/oder wobei weiter insbeson- § 

dere Daten aus den internen' Speichern (RAM- PAEs ) an den extern 
nen Speicher bzw. die Peripherie geschrieben werden, wozu ins- 
besondere Adressgeneratoren, und/oder . Zugriffs steuerungen kon- 
figuriert werden, wobei insbesondere zumindest jeweils teil- 
30 weise Adressgenerier.funktionen- derart optimieft werden, dass 

' bei einer nicht linearen Zugrif f sfolge des Algorithmus auf ex- 
terne Daten die entsprechenden Adresspattern von den Konf igu- 
rationen generiert werden. 

35 14. Verfahren nach einem der vorhergehenden Anspruche, worin zur 

Betri^bsvorbereitung ein Debugging erfolgt, insbesondere unter 
Verwendung von LOAD und/oder STORE 'Konf igurationen, insbeson-. 
dere durch Ausfiihrung eines LOAD-PROZESS-STORE-Zyklus, : wobei 
far' das Debugging relevante Daten und/oder Zustande nach Been- 

40 digung der Verarbeiturig einer Konfiguration in den RAM- PAEs 

liegen und zum Debugging hierauf zugegriffen wird, wobei ins- 
besondere laufzeitbegrenzte-bzw. watchdogaiberwachte Konfigura- 
tionen Oder Konf igurationsatome debuggt werden, 

45 15.' Verfahren nach dem vorhergehenden Anspruch, dadurch gekenn- 
zeichnet, dali das Verhalten der Anor dung -zur Bet riebsvorbe- 
reitung simuliert wird. 
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16 Verfahren nach einem der vorhergehenden Ansprtiche, dadurch ge- 
kennzeichnet, daft zumindest zeitweise eine PUSH _ Konf iguration 
* auf das Feld konf iguriert .wird, insbesondere. bei einem 
Taskwechsel und/oder zwischen den Konf igurationen des LOAD- 
PROCESS-STORE Zyklus eingeftigt wird und die internen Speiche- 
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rinhalte der Feldinterenn Speicher, insbesondere von RAM-PAEs 
nach extern sichert, insbesondere auf einen Stack, wobei be- 
vorzugt nach der Push-Konf igurationsabarbeitung auf einen an- 
deren Task gewechselt wird, d.h. der aktuelle LOAD-PROCESS- 
STORE-Zyklus kann abgebro'chen werden und ein LOAD-PROCESS- 
STORE-Zyklus des nachsten Tasks kann ausgefuhrt werden 
und/oder dafi zumindest zeitwelse eine POP-Konf iguration auf 
das Feld konfiguriert wird, urn Daten aus den externen Spei- 
chern wie einem Stack. zu laden/ 



1*7*. Verfahrens nach einem der vorhergehenden Anspruche, dadurch 
gekennzeichnet, dafi ein Scheduler zur Verwendung von Multi- 
threading und/oder Hyper threading Technologien vorgesehen 
wird, der Applikationen und/oder Applikationsteile (Threads) 
15 feingranular auf Ressourcen innerhalb des Prozessors verteilt. 



18 . Verfahren insbesondere nach einem der vorhergehenden Ansprilche 
zum Betrieb und/oder der Vorbereitung des 'Betriebs eines her- 
kommlichen, insbesondere sequenziellen Prozessors und eines 
rekonf igurierbaren Feldes von Datenverarbeitungseinheiten, 
insbesondere eines lauf zeitrekonf igurierbaren Feldes von Da- 
tenverarbeitungseinheiten, dadurch gekennzeichnet, dafi eine 
• iiber die zu ladende Konf iguration als nicht unterbrechbar be- 
handelt und/oder betrachtet wird. 

19. .Verfahren insbesondere nach einem der vorhergehenden Anspruche 

zum Betrieb und/oder .der Vorbereitung des Betriebs eines her- 
kommlichen, insbesondere sequenziellen Prozessors ^ und ^ eines 

. rekonf igurierbaren Feldes von Datenverarbeitungseinheiten, 
, insbesondere eines lauf zeitrekonf igurierbaren Feldes von Da- ^ 
tenverarbeitungseinheiten, worin-der herkommliche Prozessor in 
•einein Satz aus einer Vielzahl yon vordef inierten und nichtvor- 
definierten Befehle definierte Befehle abarbeitet und Daten- 
verarbeitungseinheitenfeldrekonf igurationen auslos't, dadurch 

- gekennzeichnet, dafi jede Konf iguration oder, gleichbedeutend 
insbesondere bei Vor-Laden einer Vielzahl von Konf igurations- 
gruppen fur Zwecke der alternativen und/oder kurz nacheinander 
ablaufenden Ausfuhrung,^ jecie- Konf igurationsgruppe, auf eine 
bestimmte Maximal zaihl an Lauf zeittakten begrenzt wird. • 

20. Verfahren nach dem vorhergehenden Anspruch, dadurch gekenn- 
zeichnet, dafi die Maximal zahl insbesondere durch Neu- 
Antriggern bzw. Rticksetzen eines Watchdog- Mitlauf zahlers , 
konf igurationsseitig erhohbar ist. 

21. Verfahren nach dem vorhergehenden, Anspruch, dadurch gekenn- 
zeichnet, dafi eine per se mogliche konf igurationsseitige Maxi- 
mal zahlerhohung unterbindbar ist, insbesondere bei und/oder 
durch Taskswitching und/oder ein Maximal zahlerhohungshauf ig- ^ 
keitsmitlauf zahler zur Begrenzung der Anzahl an Malen, die ei- 
ne Maximal zahlerhohung durch eine einzelne Konf iguration er- 
folgt, vorgesehen ist. 
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22. Verfahren nach eineia der vorhergehenden Anspruche, dadurch ge- 
kenn zeichnet, dafl auf das insbesondere durch einen Mitl'auf zaih- 
ler erfafite tatsachliche oder vermutliche Auftreten einer 
nicht terminierenden Konf iguration hin ein Prozessorexception- 
5 * signal generiert .wird. 

23- Verfahren insbesondere nach einem der vorhergehenden Anspriiche 
zum Betrieb und/oder der Vorbereitung des Betriebs eines .her- 
kGmmlichen, insbesondere sequenziellen Prozessors ^ ufid eines 

10 rekonfigurierbaren Feides von Datenverarbeitungseinheiten, 

insbesondere eines lauf zeitrekonf igurierbaren Feides von Da- 
tenverarbeitungseinheiten, dadurch gekennzeichnet, daft eine 
Lauf zeitabs chat zung fur die Konf igurationsausfuhrung vorgenoiri- 
men wird, urn einen der Laufzeit adaquaten Betrieb des Prozes- 

15 • sors zu ermoglichen. 



24- Verfahren zum Betrieb und/oder der Vorbereitung des Betriebs 

eines herkbmmlichen, insbesondere sequentiellen Prozessors und 
eines' rekonfigurierbaren Feides von Datenverarbeitungseinhei- 
ten, insbesondere eines lauf zeitrekonf igurierbaren Feides von 
Datenverarbeitungseinheiten, 

worin Qaten zwischen Prozessor und Datenverarbeitungseinheit- > 
■ feld ausgetauscht werdeh,. dadurch gekennzeichnet, daft Daten 
vom ■ Datenver,arbeitungseinheitf eld in eineifi Prozessorcache ab- 
gelegt und/oder von dort erhalten werden. 

25. Verfahren nach. dem vorhergehenden Anspruch, dadurch gekenn-r 
zeichnet, daft eine Cachebereichsmarkierung zur Feststellung 
als "dirty" geltender Cachebereiche vorgesehen wird.' 

26 [ yerfahren nach dem vorhergehenden Anspruch, dadurch gekenn- 
zeichnet, daft ein insbesondere cachecontrollerbewirktes hid- , 
denwriteback (verborgenes Riickschreiben) insbesondere zum 
Cachesauberhalten vorgesehen wird, 

27.' Vorrichtung insbesondere zur AusfUhrung eines Verfahrens nach 
einem der vorhergehenden Anspruche, dadurch gekennzeichnet, 
daft das oder. ein zumindest partiell mit rekonfigurierbaren: 
Einheiten gebildetes Prozessorf eld FPGA-artige Schaltkreisbe- 
40 reiche aufweist, insbesondere . als separate rekonf igurierbare 

Einheiten und/oder als . ein oder Teil- eines Datenpfades zwi- 
- schen grobgranular rekonfigurierbaren Einheiten und/oder I/O- 
Anschluftbereichen, insbesondere ALU-Einheiten und/oder als 
Teil einer -zumindest eine ALU-Einheit enthaltenden Prozessor- 
45 feldzelle. 

•28. Vorrichtung nach dem vorhergehenden Anspruch, dadurch gekenn- 
zeichnet, daft im Datenpfad zwischen grobgranular rekonfigu- 
rierbaren Einheiten und/oder I/O-Anschlufibereichen vorhandene 
50 FPGA-artige Schaltkreisbereiche vorgesehen sind, die bei . 

Nichtverwendung und/oder im Resetzustand einen datenunveran- 
dernden Durchlauf erlauben. 
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.29. Vorrichtung nach einem der vorhergehenden Vorrichtungsanspru- 
che, dadurch gekennzeichnet, daft zur Verwendung von Multi- ■ 
threading und/oder Hyperthreading Technologien ein hardwareim- 
plementierter Scheduler vorgesehen ist, der dazu ausgebildet . 
ist, feingranular' Applikationen und/oder : Applikationsteile 
.(Thread) auf Ressourcen innerhalb des Prozessors zu verteilen. 
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Zusaimaenf assung 

Es wird bes^chrieben, wie eine Kopplung eines herkommlichen, insbe- 
sondere sequenziellen' Prozessors und eines rekonf igurierbaren Fel- 
des von Datehverarbeitungseinkeiten,. . ins'besondere eines laufzeit- 
rekonfigurierbaren Feldes von .Datenverarbeitungseinheiten ausge- 
staltbar ist. \ * 
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